利用python 进行数据分析第2版(开启数据分析的大门-数据收集)

简介

我是一名应届经济学毕业生,在学习Python语言的过程中,接触到了数据分析,机器学习和人工智能,并对此特别感兴趣,现在我把整个学习过程记录下来,希望和我有相同兴趣和爱好的朋友们一同成长,期盼着各位专家的指导。

环境介绍

在整个过程当中,将采用Python和Excel,采用Python,是因为Python提供了丰富的开发框架和工具库,使用Excel是因为Excel是使用非常广泛的办公软件,我在Excel里将复杂的算法简单化,使大家快速理解各种难以理解的算法。

在开始之前,我们已经准备好了Anaconda和Excel环境。在这里省略了这个过程。

数据分析过程中将采用实时的沪深股市数据,在这里郑重声明,我只是应用股市数据来套入各种算法当中,提供算法的输出结果,不是对股市行情的分析。本人不炒股,只是为了数据分析,很表面地学习了一些指标,不构成任何股市行情建议。

数据获取将通过tushare开放平台,后面我会介绍和演示如何应用tushare平台。

数据分析流程简介

利用python 进行数据分析第2版(开启数据分析的大门-数据收集)(1)

数据分析是由数据收集开始,收集的数据经过标准化处理和整理后,通过各种算法,进行数据分析,目的是为了总结过去的历史数据,在数据趋势上预测未来的走势,同时对现存的环境进行优化。

我们今天先从数据收集开始。

数据收集需要应用到Python对文件的读写操作。

下面这段代码以只读方式采用’UTF-8’编码方式打开当前目录下的text1.txt文件,并输出到屏幕上。操作完毕后,关闭文件。

f1=open('text1.txt','r',encoding='UTF-8') tskey='' for i in f1: tskey=i print(tskey) f1.close()

小贴士:在从tushare平台获取数据时,每个用户会分配到一个key,我们可以把这个key封装到这个文件里。为的是数据安全和便利性。

Python对数据的处理主要是csv文件格式,Excel和数据库。今天我们主要针对csv文件进行操作。为的是尽快开始我们的数据分析之旅。后面在适当的时候,我来完成对Excel和数据库的操作。

Python 读取csv文件有很多种方法,我们这里采用PANDAS库,下面是读取csv文件代码:

#from pandas import read_csv as pd import pandas as pd filename='test1.csv' f=open(filename,encoding='UTF-8') names=['ts_code','trade_date','open','high','low','close','pre_close','change','pct_chg'] #names定义字段名,使用规范的不重复的英文字符 data=pd.read_csv(f,names=names,sep=',',header=0) #data=pd.read_csv(f) print(data) f.close()

下面这段代码先生成数据列表,然后写入csv文件。

#from pandas import read_csv as pd import pandas as pd filename='test3.csv' data1= {'A':range(3),'B':list("abc"),'C':['red','green','yellow']} df1=pd.DataFrame(data1) # A B C #0 0 a red #1 1 b green #2 2 c yellow df1.to_csv(filename,index=False,header=False,sep=',')

好了,到现在为止,Python对数据收集的基础工作就算完成了,Python对文件操作有很多技巧,不是我们这一系列的重点,就不一一介绍了,有兴趣的伙伴可以查阅相关文档。

下一篇我们我们介绍tushare接口,有兴趣的伙伴,请关注我,我们共同成长。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页