数据分析的套路和方法(从事数据分析需要掌握工具到何种程度)
如果你对数据分析感兴趣,希望学习更多的方法论,希望听听经验分享,
欢迎移步宝藏公众号「小火龙说数据」,无广告、无软文、纯干货,更多精彩原创文章与你分享!
00 序言
数据分析,横向来看,属于计算机与统计学的结合;纵向来看,始于数据、终于业务。因此需要掌握的工具/技能跨度还是比较大的,从数据流转角度来看,涵盖从「数据仓库→数据提取→数据分析→数据展示→数据汇报」几个模块,小火龙为大家梳理了各模块涉及的工具内容,并标注重要性,供大家参考。
01 数据仓库
数据分析岗位,一般不会涉及数据仓库的搭建及维护,但对数据仓库的了解,有助于下游数据提取,以及做一些ADS层的数仓建设,有益于自身成长。其中涉及到的工具/技巧主要涵盖:SQL、Python、Java、Flink等。
其中SQL是最为重要的,会在下文详细展开;Python、Java在数据处理层会应用到,Python会在下文展开,Java的优先级不高,大家了解即可;Flink在处理实时流时会应用到,优先级同样不高,了解即可。
02 数据提取
数据提取是数据分析的首个环节,将数据从数据库中,按照指定的格式输出出来。在这个过程中,SQL是必备工具。
SQL「重要性:五星」
非常重要!非常重要!非常重要!建议掌握程度如下。
- 熟练掌握增、删、查、改等基础语句。
- 熟练掌握基础函数,在遇到问题时,能够快速检索出用什么类型函数来解决问题。
- 熟练掌握语法结构,能够写出相对复杂的嵌套语句。
- 有清晰的代码逻辑,在遇到不同类型需求时,能够快速在脑海中形成输出结构。
在之前文章中,小火龙分享过一些SQL文章,感兴趣的同学可以戳蓝字部分:
- 「干货」SQL常用函数及避坑点汇总『Hive系列1』
- 「干货」SQL常用10大应用技巧『Hive系列2』
- 「求职」7道常考的数据分析SQL面试题
数据提取后,分析是日常工作的核心环节,将数据加工处理,探索其中的业务价值。这里涉及的工具比较多,包含但不限于:Excel、Python、R、Spss、Eviews、Sas等。
Excel「重要性:五星」
虽然不高端,但仍然是数据分析最好用、最常用的工具。建议掌握程度如下。
- 熟练掌握常用函数。例如:sum、average、vlookup等。可参考文章「Excel函数汇总」。
- 熟练掌握常用操作技巧。例如:行列转置、选择性粘贴等。可参考文章「Excel应用技巧」。
- 熟练掌握常用快捷键。例如:快速删除行列、快速筛选内容等。
- 了解VBA,能够简单实现Excel自动化。这一点不是必须,但对提高工作效率会有帮助。
Python「重要性:四星」
Python并不是数据分析必备工具,但却能够决定你的发展上限。主要应用场景涵盖:创建SQL中应用的UDF函数、通过脚本快速产出分析报告、通过数据挖掘产出模型。建议掌握程度如下。
- 熟练掌握Python基础语法、函数,能够看懂别人写的代码。
- 熟练掌握分析及挖掘常用工具包。例如:numpy、pandas、Matplotlib、sklearn等。
- 熟悉通用的Python项目目录结构。
R「重要性:三星」
从功能角度来说,R与Python很多功能是交叉的。R更加偏向于统计分析与绘图,一般在学术研究中应用较多。对于数据分析同学,Python与R二选一即可,个人推荐前者,应用方向更广一些。
Spss「重要性:三星」
Spss是一款数据统计与应用软件,在处理「离线 中小数据量」的统计分析时比较好用。通过「可视化界面 点选方式」选择不同类型的统计分析,例如:概率统计、相关分析、回归分析等,甚至还包含了机器学习算法与文本分析等,应用方向较广。建议掌握程度如下。
- 熟练掌握常用的统计学原理,并了解各原理中的参数含义。可参考文章「数据分析中常用的统计学方法」。
- 了解工具能解决哪些问题,至于具体的操作细节,可在用到的时候查询。
Eviews、Sas「重要性:两星」
Eviews和Sas在非经济学领域出现频次不太高。Eviews主要在时间序列分析中有较多应用;而Sas主要在银行及金融业应用较多,属于付费软件。这两个工具,大家了解就好,用到的时候再深入研究。
04 数据展示
产出数据结论后,往往需要配合图表进行展示,Excel、Python Matplotlib基本就可满足需求。但如果希望配置成例行图表,则需要通过BI软件来完成。一般公司内部会有自己的BI平台,而至于外部软件,Tableau应用较为广泛。
BI平台操作相对比较简单,但如果之前没有应用过,建议下载Tableau用一用,了解一下BI平台的一般功能,并能够实现一些简单的看板搭建(Tableau是付费的)。
05 数据汇报
数据对于业务的价值,需要通过汇报让更多人知晓。这里PPT是最常用的工具。
PPT「重要性:五星」
只有一个原则,汇报的PPT「思路清晰 内容简洁 突出结论」即可。
以上就是本期的内容分享
如果你也对数据分析感兴趣,那就来关注我吧,更多「原创」文章,与你分享!!
小火龙说数据
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com