数据分析统计教程(数据分析第一期)
在IT互联网行业,想要成为一名优秀的数据分析师,必然需要扎实的统计学基础理论知识。我将通过以下四个方面为大家描述数据分析中的“统计学”。
一,为什么要学统计学?统计学是通过对数据收集、整理、汇总及分析来达到对日常事物规律的了解以及预测和应用。统计学是一门应用学科,来源于数学和概率论数理统计,比这两个基础学科应用更广泛,在这个数据创造价值的社会,统计学正在大放光彩。更重要的是学会了解各种技术背后的基础理论知识,这一点非常重要。要从理解简单的方法开始,以便把握更复杂的方法。准确地评估一种方法的性能,了解它对数据产生的影响。掌握扎实的统计学基础是现代数据科学家的基本要素。
二,统计学在数据分析中主要有些应用?
1.线性回归:线性回归是一种通过拟合自变量和因变量之间的最佳线性关系,来预测目标变量的方法。过程是给定一个数据集,用函数拟合这些点集,使拟合函数和这些点集误差最小。例如企业季度,月支出,消费数据拟合。
2.分类:分类是一种数据挖掘技术,它将类别分配给数据集合,帮助更准确的预测分析,适用于分析大型数据集的有效方法。例如体重,卡路里摄入量,脂肪摄入量和年龄等等参数对心脏病是否有影响。
3.降维:常用于解决数据维数灾难,通过计算变量的不同线性组合或者投影得到的。有助于提高数据分析理论模型准确度。
4.子集选择从p个预测变量中挑选出与响应变量相关的变量形成子集,在对缩减后的变量集合使用最小二乘法,解决问题的预测因子p中的子集。
5.聚类:聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,常用于数据挖掘,模式识别。根据数据相识度特性进行归类,来发现数据特点。
三,怎么学会统计学之数据分析?
首先要明确学习统计学需要学到什么程度。不同的程度对数学基础知识要求是不同。对于所有想学习统计学或者是希望使用统计学方法的IT人,应该有一个循序渐进的学习流程。
1. 微积分 线性代数基础数学课程学习。
2. 概率论与数理统计,矩阵分析,最优化理论等等基础课程 。
3.sql,excel,spss等统计数据分析学习工具及软件。
4.Python语言/R语言/matlab等等统计数据分析项目实战。
5.机器学习,数据分析,数据挖掘算法进阶。
6.深度学习,神经网络。
学习了1,2,3步后,可以做基本的数据分析师,或者业务数据分析。学习了4,5,6可以做高级数据分析师,数据挖掘工程师。
四,统计学在数据分析面试中的高频考点!
1.统计推断:置信区间、假设检验(t检验、z检验、卡方检验)。
2.几种检验方法的差异性及适用条线、p值的概念、检验样本选取、统计量等概念。
3.几种常用概率分布(二项分布、泊松分布、正态分布和指数分布等)。
4.大数定律、中心极限定理等。
5.概率与抽样 。
6.异常值检测、归一化标准化等。
7.常见统计分析模型:相关分析、回归分析、方差分析、因子分析等。
我是#IT人渝村阿泽#每天分享IT知识,求职。#微##号##微#。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com