统计数据分析是做什么的(入行数据分析要知道什么是统计)

『统计』究竟是什么?『统计』什么样的研究?

日常生活中我们被无穷无尽的数据所包围,数据是『为了某种目的而获得的数字和代码的集合』,即使模糊地看待它们,也无法从中得到任何东西。

通过统计数据的个数、求平均值、看趋势、分类,可以第一时间了解数据的性质和意义,并加以利用。

一定数量的数据总是伴随着变化(不确定性)。例如一所学校的每个人都有相同的考试成绩,那么给出平均分数、排名或偏差就没有意义了。如果天气和温度一年四季都保持不变,那么就不需要天气预报,也不需要绘制温度图表。然而实际上,分数因年级和班级而异,天气和温度也因地区和一天中的时间而异。因此绘制了每个班级的平均分数和温度图表,以了解每个班级的特点并预测明天的温度。

统计学是研究具有超过一定变异量的数据的性质,或通过提取大量数据(总体)中的一部分,并检查提取的数据(样本)的性质。

是一种系统化的方法论估计数据的属性。

统计数据分析是做什么的(入行数据分析要知道什么是统计)(1)

统计系统

『统计』有两种统计类型。

『描述性统计』是收集特定数据、创建表格和图形并通过查看平均值和趋势来了解数据特征的统计数据。

『推论统计』是从总体中抽取样本,根据样本的特征推断总体特征,并检验结果是否正确的统计。

统计数据分析是做什么的(入行数据分析要知道什么是统计)(2)

描述性统计

如果样本数据没有变化,一个单一的值将代表所有样本特征,需要各种统计措施来表示。最常用的是平均值。平均值是代表一组有变化的数值。

A组英语平均分60分,B组英语平均分55分,所以A组更胜一筹。

但是真的可以根据代表值来判断整个班级是否优秀吗?比如A组有几个非常优秀的学生,都得了100分。但是如果排除这几个学生,学生的平均分是53分呢?代表值可能不代表类的整体特征。在这种情况下显示分数变化(分布)的直方图很有用。通过了解变异的状态,可以更详细地了解类的特征。

如果想知道班级的特点,不仅要知道英语,还要知道语文、数学和其他学科成绩。这样一来如果想更详细地了解某个群体的特点,就得收集非常多的项目数据。解决此类复杂问题的统计可以称为『描述性统计』。

推论统计

推论统计诞生于 1920 年代。在原始时代统计基本上是一种完整的调查,比如记录和统计获得的动物数量,没有种群和样本的概念。随着被调查对象数量的增加,进行完整的调查在物理上和时间上都变得困难,因此出现了抽样的概念。

分层随机两阶段抽样 等抽样理论和保证问卷代表性的实验设计方法,即使从总体中抽取的样本数量很少,也能更准确地把握总体特征,可以说是一种方法论。

例如选举出口民意调查,这是在计票之前预测计票结果的典型推论统计。似乎每个报社或广播电台都有自己的诀窍,即应该在哪个投票站对多少人进行投票,但抽样是基于抽样调查的理论进行的。如果符合条件的选民人数约为 1 亿,投票率为 50%,则投票人口为 5000 万。据说票站调查的有效回复大约有20万,所以20万人估计是5000万人。

在选举的情况下,计票是对人口的完整调查,因此抽样调查的正确性在调查后的一天内得到完全验证。然而许多抽样调查不允许这样的验证。因此检验从抽样调查中获得的结果是否真正代表了人口的特征,以及它们在多大程度上代表了人口的特征,这是一个非常重要的问题。

电视收视率是一个热门话题。调查户数在天津、北京、上海地区为600户,其他调查地区为200户。与之前的出口民意调查相比,很多人会认为样本量会小得多。

在调查 600 个样本时,推论统计清楚地定义了抽样误差。例如假设收视率为 10%。这 10% 的误差为 ±2.4%。也就是说有 95% 的几率,人群的收视率在 7.6% 到 12.4% 之间。因此可以看出收视率低于10%到9%的说法是没有意义的。

不得不说,不懂统计的人不去想这些错误就继续讨论是极其危险的。推论统计在统计学中占有非常重要的地位,并在近几年得到发展。然而随着大数据时代的到来,这种推论统计的地位将发生重大转变。

统计为何一直很火

随着大数据的出现,统计数据受到关注。原因是充分利用统计和分析大数据,在管理和营销策略的规划,以及新产品和服务的开发中可以取得很大的成果。

几十年来,每个人都知道,决策应该基于基于数据的科学分析,而不是直觉、经验或胆量。尽管如此从历史上看,据说还没有建立起坚实的学术体系。

有些人有一种可疑的印象,即统计数据很简单,他们对统计数据撒谎。我做了一个假设(零假设)并拒绝了没有差异的假设,因为存再很多很少发生没有差异的情况。

统计学和数学看起来很相似,但它们是截然相反的。因为数学在大多数情况下都有公理、定理和确定的答案,所以可以说数学是演绎逻辑。另一方面由于统计学是一种归纳推理,试图从有一些变异的数据中辨别出一个人口的本质,所以这种让人吸烟的可疑事物不能被视为一个学术领域。难道不是这样吗?

从历史上看,据说随着英格兰的约翰格兰特和因哈雷彗星而闻名的埃德蒙哈雷发现人口估计和死亡的规律性,统计数据开始出现。

近年来,随着不确定性时代的到来和信息技术的快速演进,企业管理层必须收集和分析大量具有变化的数据(大数据)并将其用于决策。这个想法的兴起,使统计数据突然成为人们关注的焦点。

统计数据分析是做什么的(入行数据分析要知道什么是统计)(3)

大数据时代的统计

在大数据时代,统计数据发生了怎样的变化?

如果可以检查整个总体,则无需对总体特征进行抽样。选举是通过统计全体人口的票数来决定的,所以为了达到决出胜负的目的,即使没有票站调查,抽取部分样本,进行整体估计也是没有问题的。

但是在解决营销问题的市场调查中,不可能对整个国家或所有购买该产品的用户进行调查,所以进行了抽样调查。通过按性别和年龄组调查用户的特征,并根据他们的购买状态和价值将他们分成几个集群,我们努力了解整个市场。

然而这种类型的市场研究有一个明显的缺点。比如你调查了1000人,能够掌握市场,也就是人口的特征。根据结果​可以开发产品和计划促销策略。然而在试图实现一对一营销时,这是 CRM 的精髓,除了提取的样本之外,无法了解用户的个人特征,而样本占了大部分。

在经济高速增长时期的大众营销时代,以低价大量生产好产品和在电视上投放广告,带动了销售额的稳步增长。然而随着用户需求的多样化,我们进入了一个产品不细分市场、缩小目标就卖不出去的时代,随着互联网的普及改变消费者的购买行为,企业营销策略也发生了显着变化。

随着大数据时代的到来,现在可以轻松获取带ID的POS、网站浏览历史和购买历史。营销兴趣是了解用户想要什么以及用户愿意购买什么。

传统上人口特征,也称为硬属性,例如年龄、居住地和可支配收入,变化相对较小,而心理特征,例如价值观和生活方式,已被用作了解用户偏好的方法。

然而这些数据不足以捕捉用户的偏好,几乎不可能预测每个人接下来会购买什么。对于用户购买的东西,最可靠的数据是他们过去的行为历史。这是因为过去的访问记录、浏览历史、购买历史等直接表达了用户的喜好。

广告世界正在发生巨大的转变,因为它已经成为可能为所有用户获取行为数据。从向所有人呈现相同内容的大规模广告时代开始,通过分析个人用户的行为历史,即使内容相同,也可以单独显示不同人可能感兴趣的广告。

『Banner Ads』应运而生,不仅展示主要商品,还展示要展示的产品。当下是时候实现真正的一对一营销了。

统计数据分析是做什么的(入行数据分析要知道什么是统计)(4)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页