pythonweb大数据分析(Python实现的大数据分析操作系统日志功能示例)
类别:脚本大全 浏览量:2383
时间:2022-03-29 18:58:26 pythonweb大数据分析
Python实现的大数据分析操作系统日志功能示例本文实例讲述了Python实现的大数据分析操作系统日志功能。分享给大家供大家参考,具体如下:
一 代码
1、大文件切分
|
import os import os.path import time def FileSplit(sourceFile, targetFolder): if not os.path.isfile(sourceFile): print (sourceFile, ' does not exist.' ) return if not os.path.isdir(targetFolder): os.mkdir(targetFolder) tempData = [] number = 1000 fileNum = 1 linesRead = 0 with open (sourceFile, 'r' ) as srcFile: dataLine = srcFile.readline().strip() while dataLine: for i in range (number): tempData.append(dataLine) dataLine = srcFile.readline() if not dataLine: break desFile = os.path.join(targetFolder, sourceFile[ 0 : - 4 ] + str (fileNum) + '.txt' ) with open (desFile, 'a+' ) as f: f.writelines(tempData) tempData = [] fileNum = fileNum + 1 if __name__ = = '__main__' : #sourceFile = input('Input the source file to split:') #targetFolder = input('Input the target folder you want to place the split files:') sourceFile = 'test.txt' targetFolder = 'test' FileSplit(sourceFile, targetFolder) |
2、Mapper代码
|
import os import re import threading import time def Map (sourceFile): if not os.path.exists(sourceFile): print (sourceFile, ' does not exist.' ) return pattern = re. compile (r '[0-9]{1,2}/[0-9]{1,2}/[0-9]{4}' ) result = {} with open (sourceFile, 'r' ) as srcFile: for dataLine in srcFile: r = pattern.findall(dataLine) if r: t = result.get(r[ 0 ], 0 ) t + = 1 result[r[ 0 ]] = t desFile = sourceFile[ 0 : - 4 ] + '_map.txt' with open (desFile, 'a+' ) as fp: for k, v in result.items(): fp.write(k + ':' + str (v) + '\n' ) if __name__ = = '__main__' : desFolder = 'test' files = os.listdir(desFolder) #如果不使用多线程,可以直接这样写 '''for f in files: Map(desFolder + '\\' + f)''' #使用多线程 def Main(i): Map (desFolder + '\\' + files[i]) fileNumber = len (files) for i in range (fileNumber): t = threading.Thread(target = Main, args = (i,)) t.start() |
3.Reducer代码
|
import os def Reduce (sourceFolder, targetFile): if not os.path.isdir(sourceFolder): print (sourceFolder, ' does not exist.' ) return result = {} #Deal only with the mapped files allFiles = [sourceFolder + '\\'+f for f in os.listdir(sourceFolder) if f.endswith(' _map.txt')] for f in allFiles: with open (f, 'r' ) as fp: for line in fp: line = line.strip() if not line: continue position = line.index( ':' ) key = line[ 0 :position] value = int (line[position + 1 :]) result[key] = result.get(key, 0 ) + value with open (targetFile, 'w' ) as fp: for k,v in result.items(): fp.write(k + ':' + str (v) + '\n' ) if __name__ = = '__main__' : Reduce ( 'test' , 'test\\result.txt' ) |
二 运行结果
依次运行上面3个程序,得到最终结果:
07/10/2013:4634
07/16/2013:51
08/15/2013:3958
07/11/2013:1
10/09/2013:733
12/11/2013:564
02/12/2014:4102
05/14/2014:737
希望本文所述对大家Python程序设计有所帮助。
原文链接:https://blog.csdn.net/chengqiuming/article/details/78601136
您可能感兴趣
- python怎么抽取微信图片(Python 一键制作微信好友图片墙的方法)
- python语言案例教程单元测试(Python单元和文档测试实例详解)
- python找到连续不重复最长英文串(Python实现简单查找最长子串功能示例)
- python列表的循环遍历使用教程(Python中使用遍历在列表中添加字典遇到的坑)
- python编程加密解密(python实现AES加密解密)
- python里list操作大全(Python列表List知识点总结)
- pythonkeys怎么用(浅谈python的深浅拷贝以及fromkeys的用法)
- python的mqtt循环发布(python 发送和接收ActiveMQ消息的实例)
- python零基础实战项目(十个Python练手的实战项目,学会这些Python就基本没问题了推荐)
- 协程在python中怎么使用(python协程之动态添加任务的方法)
- python制作彩色字符(Python3利用print输出带颜色的彩色字体示例代码)
- pythonpandas操作拆分excel(Python使用pandas和xlsxwriter读写xlsx文件的方法示例)
- 如何利用python编写日期的程序(Python读取指定日期邮件的实例)
- pythonweb大数据分析(Python实现的大数据分析操作系统日志功能示例)
- python 时间戳转化为格式(Python datetime和unix时间戳之间相互转换的讲解)
- python time模块是什么(python中时间模块的基本使用教程)
- 四川旅游攻略(四川旅游攻略自由行攻略)
- 上海迪士尼攻略(上海迪士尼攻略旅游)
- 哪里可以看熊猫(成都哪里可以看熊猫)
- oppo手机的三种录屏方法,你知道有哪些吗(oppo手机的三种录屏方法)
- 吉林神秘传染链跨省 传染源尚未找到,舒兰 封城(吉林神秘传染链跨省)
- 吉林舒兰 封城 聚集性疫情传播链已延至沈阳,有一个细节让人忧心(吉林舒兰封城)
热门推荐
- iis安全包括哪些方面(使用华盾IIS备份还原工具备份还原IIS站点图解)
- wampserver安装报错(安装wampserver提示丢失MSVCR100.dll的解决方法)
- php添加到数组的用法(详解PHP 7.4 中数组延展操作符语法知识点)
- pythonjson库(Python常用的json标准库)
- css瀑布流布局
- vsftpd详细配置(vsFTPd 服务器初学者指南)
- sqlserver 添加分区(SQL Server 数据库分区分表水平分表详细步骤)
- php中变量定义规则(php use和include区别总结)
- zabbix5.4监控磁盘可用内存大小(解析Zabbix 5.0磁盘自动发现和读写监控的问题)
- dedecms能自定义么(dedecms5.7联动类型无法显示的解决方法)
排行榜
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9