大数据挖掘的技术及方法(史上最系统的大数据挖掘技术及其应用详解)

1、引言

从人类文明诞生的那一刻起,数据就伴随我们而生——人类交流信息所用的文字和语言,计量距离或数量使用的记号和图案,观察自然所积累和传承的经验等,都是数据构成的。这些数据在百万年历史长河里,为人类文明的发展进化带来了难以估量的巨大价值。

自从人类发明了纸和笔,创造了数字、文字、几何技术后,数据有了更精确的描述和记录的方法,在此基础上催生出了数字、物理、化学,以及文学、艺术、管理等学科,我们今天所享受的现代文明,都深深的植根于数据技术。

随着互联网时代的大发展,数据记录逐步脱离了纸笔的限制,人类发明了廉价的硅晶半导体所蕴藏的秘密,大量的数据可以按0或1的二进制方式存储半导体材料内,它们的存储能力如此巨大,成本如此低廉,以至于以往被轻易忽略的数据都能被忠实的保存下来:我们每一下轻微的呼吸、每一次心脏的跳动、每一下鼠标的点击,企业里员工的每一次出勤、财务的每一笔账单、客户的每一个评论,包罗万象都能一一记录。

与此同时,数据的概念也在进一步拓宽。传统的数据是指用数字或文字描述的内容,通称为结构化数据,而大数据时代涌现出了大量新型数据的、非结构化的数据。例如人群之间看不见的社交关系(Social Relationships),移动设备发射的GPS位置,网络传播的图像、视频信号,可穿戴设备采集的健康数据等。对这些各种各样的数据的采集、挖掘、运用,也是现代大数据挖掘的重要研究课题。

正在发生的大数据变革,恐怕是人类技术发展中最重要的话题之一,它冲击着许多主要的行业,包括零售业、服务业、电子商务和金融领域等,同时大数据技术也正在彻底的改变我们的日常生活。如果把数据比作是矿石的话,大数据挖掘技术就是要从矿石中提炼出黄金,并形成各种精致的制成品发挥作用的过程。它既能够通过移动应用和云服务追踪和提升个人的生活品质,也能为现代企业带来更高效和稳健的管理方式。小到个人,大到企业和国家,大数据均是极度重要的一个议题,需要我们真正的深入理解它,因此本文将对大数据挖掘技术给出全景式的介绍,首先给出大数据的背景、原理和概念,然后阐述大数据挖掘的方法和步骤,再讲解大数据在企业应用中的方式和收益,最后分享大数据时代的产业状况,和我们面临的挑战与机遇。

2、大数据技术的背景、概念和意义

2.1大数据的产生背景

大数据热潮诞生的先决条件是计算机存储能力的迅速扩大和成本的一再降低。得益于半导体技术在过去20年里持续快速的发展,今天我们用500元人民币就能轻松买到一块能装得下63万本《红楼梦》的1T 容量的移动硬盘;价值2000元的一块PC硬盘甚至能存储下全世界迄今为止所有的音乐内容。在很多大型互联网公司里,拿一台较好配置的服务器,就可以一举装下美国国家图书馆里所有纸质书的内容——纵观整个人类文明发展史,今天人类拥有了史无前例的海量信息的存储能力,并且这个能力仍然在日新月异的向前发展着。

与此同时,人类创造数据的能力也同样在高速增长。传统社会只有文人墨客、达官显贵才能青史上留下只言片语,而互联网时代里所有人都能轻松成为数据的生产者,例如Facebook上每月被用户分享500亿条新信息,全球的社交网络每天产生1亿张新照片。能够产生和采集数据的方式也越来越多——电脑、手机、电视、汽车……一切都在大踏步的向“智能化”迈进。

我们对数据进行挖掘和处理的能力也遵照着“摩尔定律”在飞速的发展。这些IT技术在数据产生、存储、挖掘、运用方面的逐步成熟,让数据驱动产生价值的门槛越来越低,终于大数据时代的脚步匆匆到来了。

2.2大数据的“4V”要素

大数据(Big Data)概念最早的提出者是麦肯森咨询公司和IBM公司的科学家们。在大数据的定义中,有如下“4V”要素是必须的:Volume, Variety, Velocity, Value,具体含义如下:

大数据挖掘的技术及方法(史上最系统的大数据挖掘技术及其应用详解)(1)

图1:大数据的4V要素

Volume:具备超出典型数据库软件收集、存储、管理和分析能力的数据集;Variety:具备多样性的,结构化、半结构化、非结构化等多种类型的数据形式;Velocity:具备快速、实时的数据处理能力;Value:具备从稀疏的数据中挖掘高价值内容的意义。

4V要素之间存在密切的关联关系:Volume是所有工作的基础,构建一个容量足够巨大的数据处理平台才能保证其上的应用;基于Volume进一步有Variety,用于多样化数据的处理;Velocity保证了系统有实时数据处理的能力;最终的Value体现了数据所能发挥的价值,大数据最重要的并非“大”,也并非“数据”本身,而是人们如何认识和使用它,尽最大可能挖掘出其中价值,正所谓吹尽黄沙始见金。

2.3大数据价值

企业信息化数据价值的最直观应用就是在企业管理里,这个过程和企业信息化的发展往往交织在一起。在1980s年代及以前,企业的各类业务、财务数据都是通过账簿记录,这种方式查阅和统计的效率都很低,可靠性也不高。从1990s年代末开始,金融业、电信业、大型零售等行业企业率先将核心交易数据电子化,2000年以后随着IT技术的进步,越来越多的企业将信息化纳入议程,ERP(Enterprise Resource Planning)、MIS(Management Information System)系统蓬勃发展,设计、制造、进存销等业务管理逐步数据化,这些数据被大家意识到是企业最宝贵的资产,随之而起的统计报表技术也渐渐完善。2010年以后,更多种类的数据,包括客户的浏览数据、反馈数据等在一些企业中也都开始记录并逐步进行个性化建模和分析,数据驱动的CRM(Customer Relationship Management)客户关系管理开始在精准运营和个性化服务方面崭露头角,基于数据分析的预测技术也逐步开始出现。

图2:数据价值的最直观应用就是在企业管理里

从过去到未来,数据的价值在一点一滴的凸显,注意这个过程是动态变化的,十年以前的大数据在如今看来根本不算很大;而同样的,今天的大数据在若干年后也将不再被认为是大数据。数据容量、速度、多样性、复杂度方面在今天来看无法想象的事情,几年之后都将完全被颠覆;唯一不变的,是对数据的思考和分析的方法,和利用数据来产生附加价值的出发点。

3、大数据挖掘的方法、流程和场景

3.1大数据采集的特点

大数据应用的第一步就是采集数据。巧妇难为无米之炊,数据采集的完整性、准确性,决定了数据应用是否能真实可靠的发挥作用。大数据时代的数据采集有如下三个特点:

1)数据采集以自动化手段为主,要尽量摆脱人工录入的方式;2)采集内容以全量采集为主,要摆脱对数据进行采样的方式;3)采集方式多样化、内容丰富化,摆脱以往只采集基本数据的方式。

从采集数据的类型上看,不仅要涵盖基础的结构化交易数据,还将逐步包括半结构化的用户行为数据,网状的社交关系数据,文本或音频类型的用户意见和反馈数据,设备和传感器采集的周期性数据,网络爬虫获取的互联网数据,以及未来越来越多有潜在意义的各类数据。

3.2常见数据采集技术

传统的数据采集方法包括人工录入、调查问卷、电话随访等方式,大数据时代到来后,一个突出的变化是数据采集的方法有了质的飞跃,下面所介绍的数据采集方式的突破直接改变着大数据应用的场景。

移动互联网的兴起让面向移动设备的数据采集技术有了迅速发展,目前使用最多的常称为Android或iOS的采集SDK(Software Develop Kit),这种技术能帮助统计APP的基础数据,包括用户数、活跃情况、流失比例、使用时长等;用户的位置、安装列表、通讯情况等通过授权也可以采集。网络爬虫是另一类广泛使用的互联网采集技术,常被用于进行大规模全网信息采集、舆情监控、竞品分析等领域。

图3:移动互联网和可穿戴传感器等新型数据采集技术蓬勃发展

物联网也和大数据息息相关,因为物联网的关键技术之一是无线射频标签(RFID):当安装有RFID微型标签的读卡器在近距离发出信号时,带有RFID的物品能自动返回其唯一的序列号,这样就能实现自动大批量辨识物品信息的工作。RFID技术解决了物品信息与互联网实现自动连接的问题,结合后续的大数据挖掘工作,能发挥其强大的威力。

在工业制造业里,传感器(Sensor)是另一类常见的大数据采集装置,它能将测量到的信息按一定规律变换为电信号输出,通常用于自动检测和控制等环节。传感器的种类极为丰富:大到机械设备、汽车、飞机、建筑物,小到一部智能手机、一个智能设备,都可以安装很多种传感器,传递温度、压力、位置、位移、光敏、距离、化学感应、生物、磁场等各类信号。未来携带传感器 大数据平台的智能设备将越来越多,基于传感器数据的大数据应用才刚刚起步,如智能医疗,智慧城市等,这方面有着广阔的前景。

3.3 数据存储技术的发展和演进

传统企业信息化系统采用关系数据库来进行数据存储,其中规模较大的通常被称为“数据集市”(Data Mart)。随着采集数据的种类越来越多,部分行业领先的公司看到了把不同数据集市集中到一个大系统中的价值,这个大系统称为企业级数据仓库(Enterprise Data Warehouse, EDW),由专门的数据团队(或称为数据中心)负责集中式的数据管理和维护。

大数据挖掘的技术及方法(史上最系统的大数据挖掘技术及其应用详解)(2)

图4:企业数据中心是各类数据业务的集中管理者

随着数据量的惊人增长,已经使用了20余年的传统数据库再也无法支撑起新的存储需求了,所以被Google称为Big Table和GFS的新型存储技术在过去的几年里被发明出来,并在行业中广泛应用,这些技术通过自动调配上万台服务器协同工作,能完成高性能和高可靠的数据存储任务,为大数据的运用铺平了道路。

3.4 云计算与大数据

云计算可谓是大数据的最好载体。由于大数据存储和运算非常复杂,传统企业在运作时需要投入很高的人力物力,因此把涉及存储运算的基础设施抽象和独立出来,形成的专门性服务称为云计算(Cloud Computing)。云计算就好比大数据时代的“电”,大数据系统则是“家用电器”——云计算注重服务的通用性,大数据关注实际的用途和效果。

云计算服务分为两大类:公有云和私有云。公有云是在开放网络中为客户提供服务,用户并不完全拥有云资源。私有云是为特定客户单独使用而构建的,独占使用的服务资源。使用公有云,相当于通过一根电线接入供电网;使用私有云,相当于在家里安装了一台发电机。

云计算的出现大大降低了大数据应用的门槛,未来无论是企业还是个人应用,采用云计算作为载体,大数据作为上层应用的方式将是最优的发展方向。

3.5 大数据挖掘原理和技术生态

在解决了大数据采集、存储的问题后,最重要的环节是大数据挖掘技术。著名的Map-Reduce的计算框架很好的解决了大数据挖掘的性能问题,被产业界广泛使用,基于Map-Reduce原理最为知名的开源实现方案称为Hadoop。

在Map-Reduce基础上,近1-2年来一些新的流式计算技术也被国际知名公司和大学提出,例如twitter提出的Storm,Yahoo的S4,UC Berkeley的Spark,斯坦福大学的Phoenix等新技术。围绕这些核心的挖掘平台,现在已经形成了一整套大数据挖掘技术生态,为上层的数据应用奠定了基础。

大数据挖掘的技术及方法(史上最系统的大数据挖掘技术及其应用详解)(3)

图5:大数据运算平台常见的技术生态系统

3.6 数据类型与常见应用

大数据挖掘应用中最常见的数据类型称为结构化数据,定义为存储在数据库里,能用二维表结构来逻辑表达实现的数据。结构化数据常用于记录生产、业务、交易、客户信息等方面的数据,这些数据规模较小,内容规范,含义明确,处理方式成熟,可以方便的产生各类数据报表,为企业运作提供最直接的依据。

以典型的制造型企业运作为例,其资产负债表、现金流表等核心财务报表,均出自于结构化数据的统计分析;其业务相关的库存、销量、分品类货物流转等数据,也通过类似的方式来产生。

如果是面向互联网业务的新型企业,则会更关注诸如网站的流量、移动APP的日活跃用户数(DAU,Daily Active Users)、登录用户数、停留时间等数据,这类数据统计则很多来源于半结构化数据,网络访问日志就是典型的一种半结构化数据。半结构化数据具有可被理解的逻辑流程和格式,但这些格式并不是用户友好的,有价值的信息参杂在大量的噪声和无用的数据中,分析起来比结构化数据复杂。

大数据挖掘的技术及方法(史上最系统的大数据挖掘技术及其应用详解)(4)

图6:大数据处理的三类数据交叉融合

比半结构化数据更复杂的是非结构化数据。文本信息是目前已记录的数量最为庞大的数据形式,例如网页中的文字内容、聊天记录、电子邮件,企业的各类文档等,它们包含了大量有价值的信息,对它们的分析处理催生出了自然语言处理(NLP , Natural Language Processing)这样专门的计算机学科。

大数据处理难度最高的是多媒体类的非结构化数据,包括图像、语音、视频等,对这些数据的深入挖掘和理解,能产生非常多新颖实用的功能,如自动监控、人脸识别、自动驾驶等。近年来Google、Facebook等公司积极进行深度学习(Deep Learning)相关技术的研发,用大规模机器学习的技术来解读多媒体的数据,已经取得了非常可观的进步。(陈运文博士)

图7:多媒体类的非结构化数据的处理能产生非常多新颖的功能

对各种类似数据的挖掘和处理还远没有结束,存在巨大的应用潜力。相信大数据系统在不久的将来能产生越来越多令人惊叹的功能,甚至改变大量产业的形态。

4、大数据应用的策略、方式和收益

4.1数据统计是最直接应用

数据统计是大数据应用的最直观的形式,数据统计在企业中常被称为商业智能(BI, Business Intelligence)系统,使用者们通过观察数据报表来掌握企业的经营状况,发现企业运营的问题。大数据技术利用各种分析方法和工具在大规模海量数据中建立模型和发现数据间的潜在关系,帮助管理者们发现着眼点。

大数据挖掘的技术及方法(史上最系统的大数据挖掘技术及其应用详解)(5)

图8:商业智能(Business Intelligence)系统是最直接的应用

随着技术的进步,数据统计应用发展的越来越迅速,例如传统按周按天生成的数据报表,可以缩短为小时级甚至分钟级,同时报表的细分刻画能力也更强,有助于更及时的掌握业务变化情况,更深入了解变化的细节。

4.2 个性化技术蕴藏巨大价值

每个人生来就是与众不同的,需求也天然是个性化的。以时装产业为例,每个用户穿着打扮的口味、偏好、喜爱的款式是各不相同的,大数据能充分发挥所长,挖掘出用户的个性化需求并加以满足。亚马逊公司(Amazon)通过挖掘用户在线的浏览行为和购买记录,成功挖掘出了用户个性化模型并进行针对性商品推荐,极大促进了商品的购买率。目前亚马逊上超过30%的购买收入由个性化推荐系统所贡献,是了不起的成就。

大数据挖掘的技术及方法(史上最系统的大数据挖掘技术及其应用详解)(6)

图9:个性化推荐系统帮助人们解决信息过载的困扰

私人订制就是个性化的一个典型案例,以往私人订制是高端人群独有的服务,价格昂贵,耗时耗力,而大数据技术能将定制过程自动化,降低成本,让普罗大众享受到个性化服务的优势。亚马逊(Amazon)总裁杰夫·贝佐斯曾说过:“如果我的网站有一百万个顾客,我就应该有一百万个商店”。

个性化数据技术对合理调配企业资源也有积极的意义,例如美国的Dunnhumby Shop公司通过分析消费者来访问超市的时间和消费明细,对不同顾客群体采取针对性的促销手段,同时帮助供应商对不同区域制订合理有效的价格和库存和配送方案,合理的节约了运营成本。

4.3 最有吸引力的应用:预测技术

我们每天都在进行着大大小小的预测:如预测从家里出发到工作地点所需要的时间;预测某款产品发布以后一个月内的订单量。预测的愈准确,则成功的把握愈大。如果我们拥有百分之百准确的预测能力,像先知穆罕默德那样,就会变得无往不利。

图10:随着技术的进步,大数据正在赋予我们更强的洞察未来的能力

谁能预知未来?——大数据技术能帮你做到,因为它熟知过去。随着技术的进步,借助时间序列分析技术,·通过对趋势、季节变动、循环波动和不规则波动的因素的细致把握,大数据正在赋予我们更强的洞察未来的能力。

美国第二大连锁超市Target,通过大数据技术分析顾客的详细购买记录,判断出某位还在读书的年轻女孩已经怀孕了,并给她寄去了大量婴儿用品的优惠券,这位女孩的父亲收到优惠券后极为惊讶,经过和女儿的进一步沟通才发现真的已经有孕在身了。大数据技术比父亲更早预测出了这个真实的真相。

4.4 分类和回归技术

如同谚语“朝霞不出门,晚霞行千里”所说的,我们常常通过经验来分析不同现象之间存在的潜在关联和因果关系。而如今大数据技术能代替人工经验来更好的分析数据间的关联关系,帮助找出规律。常见的包括两类技术,一类称为回归分析技术(Regression Analysis),它通过统计科学来把握两个或多个变量间相关关系的强度。另一类称为分类技术(Classification),分类是指通过分析已标注好的训练数据,来自动的将新的未知数据按种类、等级或性质分别归类的过程。

分类和回归是人脑最常进行的操作,现在计算机也能逐步代替人类完成这样的操作,且效率是人类的数万倍。典型的应用是英国Adzuna公司根据积累的海量职位薪酬数据,自动为招聘双方提供薪酬制定的科学依据,其最优的预测算法非常精确,生成的预测值和实际薪水值误差不到10%。Adzuna已成为英国内阁高官“幕后智囊团”,帮助英国政府了解失业率、职位空缺、薪资水平等经济发展情况,制定国策。

4.5 辅助决策系统

企业战略决策往往决定了企业的生死存亡,怎样才能更科学合理进行决策?华为公司总裁任正非曾说过“要让听得见炮火的人来决策”,提出了要从实际数据中产生科学决策结果。

大数据技术基于海量一线数据,能让决策更科学,降低误判的风险。其中大数据辅助分析有一个称为GREAT的原则:Guided, Relevant, Explainable, Actionable, Timely,基于GREAT原则越来越多的企业将会用好大数据,发挥智囊团的作用。

大数据挖掘的技术及方法(史上最系统的大数据挖掘技术及其应用详解)(7)

图11:大数据辅助分析的GREAT原则

5、大数据时代的探索、机遇和挑战

5.1 国内外大数据行业发展态势

在上述大数据技术上,通过串联起特定的数据采集、存储、挖掘、应用的机制,就能诞生出一个个具体的创新应用。例如通过RFID技术采集仓储信息,在云端存储数据并加上预测技术,能实现一个智能的物流管理系统;通过可穿戴感知器设备,加上私有云、个性化、社交网络等技术,则可以实现一个智能健康管理系统等等,可供拓展的机会有很多。

近年来大数据行业发展极为热烈:2009年美国政府启动Data.gov网站开放了社会公共数据的大门,向公众提供各种各样的政府数据。2009年欧洲一些研究型图书馆和科技信息研究机构建立了伙伴关系,致力于改善在互联网上获取科学数据的简易性。2011年中国工信部发布了物联网十二五规划,将信息处理技术作为4 项关键技术创新工程提出,包括了海量数据存储、数据挖掘、图像视频智能分析,都是大数据的重要组成部分。2012年瑞士达沃斯世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响Big Data, Big Impact》 宣称,数据已经成为一种新的经济资产,就像货币或黄金。近年来大数据行业的投资并购,新兴企业发展等,更是呈现出如火如荼的发展态势。

5.2 大数据时代面临的风险挑战

大数据时代所面临的重大风险之一是用户的隐私保护问题。近年来国内外多起的密码泄漏、隐私侵权等事件,暴露了这方面存在的问题。一方面我们需要对用户数据进行创新性的挖掘,另一方面还需要兼顾用户隐私的保护,两者是硬币的正反两面,其平衡和博弈的问题会始终存在。

大数据思维则是面临的更严峻挑战,则来自思维方式的转变。在企业经营逐步从传统粗放式向大数据精细化转向时,以往“差不多”、“还可以”、“领导说”等拍脑袋决策的方式要逐步让位于精确的数据分析、统计、预测系统,从“行或不行,官大的说了算”转变为“行或不行,数据说了算”,从“事后统计”转变为“事前预测”,是大数据思维方式的落实和转变。

5.3 大数据时代的创新机遇

信息技术正在以突飞猛进的速度向前进步,包括新传感器采集技术、移动互联网技术、社交网络技术的蓬勃发展,将带来大量的创新性应用。大数据是新时代的石油,通过研发分析各种多元结构化数据的高效技术,提高数据产品的易用性,让数据分析实现“开箱即用”,其蕴藏的巨大能量将使数据成为政府和企业建立核心竞争力的关键途径,甚至能够颠覆很多传统行业的运作方式,带领我们进入信息革命的新时代。

对我们每个人而言,跟随大数据的浪潮,把握机遇,投身其中,在大数据创新的浪潮之巅定能一展身手。

码字不易,如果您觉得文章写得不错,

请您 1.关注作者~ 您的关注是我写作的最大动力

2.私信我“大数据”

我将与您分享一套最新的大数据学习资源和全套开发工具

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页