大数据分析哲学告诉我们什么(到底什么是大数据)
大数据的定义方法有很多种如果仔细观察,我们会发现不同领域专家学者给出了不同的定义通常所说的“大数据”往往指的是“大数据现象”接下来,我们从数据科学的理论基础入手,分析大数据(现象)的内涵(表1-2),今天小编就来说说关于大数据分析哲学告诉我们什么?下面更多详细答案一起来看看吧!
大数据分析哲学告诉我们什么
大数据的定义方法有很多种。如果仔细观察,我们会发现不同领域专家学者给出了不同的定义。通常所说的“大数据”往往指的是“大数据现象”。接下来,我们从数据科学的理论基础入手,分析大数据(现象)的内涵(表1-2)。
表1-2不同学科对术语“大数据”的理解不同
学科 | 参照物 | 理解方式 |
计算机科学与技术 | 现有的计算能力和存储能力 | 当数据量、数据的复杂程度、数据处理的任务要求等超出了传统数据存储与计算能力时,称之为“大数据(现象)”。 |
统计学 | 总体的规模 | 当能够收集足够的全部(总体中的绝大部分)个体的数据,且计算能力足够大,可以不用抽样,直接在总体上就可以进行统计分析时,称之为“大数据(现象)”。 |
机器学习 | 智能的实现方式 | 当训练集足够大,且计算能力足够强,只需要通过对已有的实例进行简单查询即可达到“智能计算的效果”时,称之为“大数据(现象)”。 |
社会科学 | 数据规模或价值密度 | 当多数人的大部分社会行为可以被记录下来时,称之为“大数据(现象)”。 |
-
计算机科学与技术:当数据量、数据的复杂程度、数据处理的任务要求等超出了传统数据存储与计算能力时,称之为“大数据(现象)”。可见,计算机科学与技术中是从存储和计算能力视角理解“大数据”——大数据不仅仅是“数据存量”的问题,还涉及“数据增量”、复杂度和处理要求(如实时分析)有关。
-
统计学:当能够收集足够的全部(总体中的绝大部分)个体的数据,且计算能力足够大,可以不用抽样,直接在总体上就可以进行统计分析时,称之为“大数据(现象)”。可见,统计学主要从所处理的问题和“总体”的规模之间的相对关系视角理解“大数据”。例如,当“总体”含有1000个“个体”时,由960个样本组成的样本空间就可以称为“大数据”——大数据不是“绝对概念”,而是相对于总体规模和统计分析方法的选择的“相对概念”。
-
机器学习:当训练集足够大,且计算能力足够强,只需通过对已有的实例进行简单查询即可达到“智能计算的效果”时,称之为“大数据(现象)”。可见,机器学习主要从“智能的实现方式”理解大数据——智能的实现可以通过简单的实例学习和机械学习的方式即可实现。
-
社会科学家:当多数人的大部分社会行为可以被记录下来时,称之为“大数据(现象)”。可见,社会科学家的眼里“大数据”主要从“数据规模与价值密度角度”谈的——数据规模过大导致的价值密度过低。
总之,术语“大数据”的内涵已超出了数据本身,代表的是数据给我们带来的“机遇”与“挑战”,可以总结为:
-
机遇:原先我们无法(或不可能)找到的“数据”,现在我们可能找到;原先我们无法实现的计算目的(如数据的实时分析),现在我们可以实现。
-
挑战:原先我们一直认为“正确”或“最佳”的理念、理论、方法、技术和工具越来越凸现出其“局限性”,在大数据时代我们需要改变思考模式。
(注:以上内容摘录自我国第一部系统阐述数据科学理论的专著《数据科学》(清华大学出版社,朝乐门编著)。)
作者:朝乐门
定价:49元
ISBN:9787302436997
出版日期:2016.08
作者简介
朝乐门,中国人民大学副教授,硕士生导师、中国计算机学会信息系统专委员会委员、ACM高级会员、国际知识管理协会正式成员。清华大学博士后,人民大学博士,北京大学硕士。主持完成国家自然科学基金、国家社会科学基金等重要科学研究项目10余项;参与完成核高基、973、863等国家重大科研项目10余项;获得北京市中青年骨干教师、Emerald/ EFMD国际杰出博士论文奖、国际知识管理与智力资本杰出成就奖、中国人民大学优秀博士论文奖等奖励30余项。
数据科学是一门新兴的热门科学,国外一流大学纷纷设立同名课程,相应的专业、课程及书籍也深受欢迎。本书是国内第一部系统阐述数据科学的重要专著,填补了国内此领域的空白。本书在结构设计和内容选择上不仅充分借鉴了国外著名大学设立的相关课程以及全球畅销的外文专著,也考虑到了国内相关课程定位与专业人才的培养需求。
本书共包括8个部分(基础知识、数据预处理、数据统计、机器学习、数据可视化、数据计算、数据管理以及R编程),既涵盖了数据科学的基本内容,又避免了与相关课程的低级重复。每章设有综合例题,做到理论学习与动手操作相结合。例题均采用R语言完成数据科学的特定任务。每章的首尾配有“导读”与“小结”,便于教师的教学和学生的自学。“习题”部分以主动数据收集和分析的开放题目为主,旨在帮助学生提高自我学习能力。书后附有R语言语法,便于入门的教学与学习。
本书可以满足数据科学、计算机科学与技术、管理学、数据统计、数据分析、图情档类等多个专业的老师、学生(含硕士生和博士生)的教学与自学需要。
如果需要《数据科学》样书,可以在微信公众号“书圈”(itshuquan)申请。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com