简易的词法分析器(从数羊到n元词组词频查看器)

简易的词法分析器(从数羊到n元词组词频查看器)(1)

引言

数字眼,透视历史与未来

设想一下,如果我们有一个可以阅读全世界各大图书馆所有藏书的机器人,它能够以极快的速度读完这些书,并以超强的记忆力记住书中的每个词。那么,我们不禁会问:从这样一位“机器人历史学家”那里,我们能学到些什么呢?

举一个在美国家喻户晓的例子。如今,美国人把居住在南方各州的人称为“南方人”;把居住在北方各州的人称为“北方人”;把居住在新英格兰各州的人称为“新英格兰人”。然而,人们却把这些人统称为“美国人”。

为什么人们说到“美利坚合众国”(the United States)一词时会使用单数形式(is)呢?事实上,这不仅仅是一个语法问题,更是一种国家认同。

在美国建立之初,其建国文件《邦联和永久联合条例》(Articles of Confederation and Perpetual Union)所规定的政府是弱中央政府,并且其中提到的新实体也不是指一个国家,而是各个州的友好联盟,有些类似于今天的欧盟。当时,生活在各个州的人们并不认为自己是美国人,而是称自己为某个州的公民。

正因如此,那时的人们在提到美国时会使用复数形式。这与当时的美国只是一些独立州的联合体相关。例如,1799年约翰·亚当斯总统在其《国情咨文》中提到:“美利坚合众国在它们与英国国王的协议中……”如今,如果有哪位美国总统在提到美国时采用“它们”这样的说法,那必将会引发全民的指责。

1787年美国《宪法》中“我们合众国人民”(Wethe People)是何时转变成1942年《效忠誓词》中的“一个国家”(onenation)的?

如果我们去问历史学家,那他们很可能会将我们引到詹姆斯·麦克弗森(James Mc Pherson)在其纪念美国南北战争历史的著作《为自由而战的呐喊》(Battle Cry of Freedom)中那个众所周知的答案上去:

战争带来的一些重要影响逐渐清晰。国家分裂和奴隶制度被消灭了,并且从阿波马托克斯(Appomattox)南方投降以来的125年间都没有重演。这为美国社会和国体都带来了深远的变革,而战争在其中起到了不可磨灭的作用。在1861年之前,“美国”一词通常以复数名词的形式出现,譬如,“The United States are a republic”。而南北战争则标志着“美国”一词从复数名词走向了单数名词。

麦克弗森并不是作出这一猜测的第一人。实际上,这个话题被争论了至少100年,简直就是老生常谈了。下面是摘自1887年《华盛顿邮报》的一段话:

几年前,“美国”一词被用作复数形式。人们会说:“the United States are”,“the United States have”,“the United States were”。但是,南北战争改变了这一切。沿着从切萨皮克(Chesapeake)到萨宾帕斯(Sabine Pass)的战争前线,这个语法问题从此被彻底解决了。该问题的最终裁决不是靠威尔斯(Wells)、格林或林德利·默里(Lindley Murray),而是借助于谢里登(Sheridan)的军刀、舍曼(Sherman)的步枪、格兰特的火炮……戴维斯阁下和李将军的投降意味着“美国”一词从复数形式过渡到了单数形式。

即使是在一个世纪后,哪怕只是读一读这个由语言、火炮、冒险组成的奇妙故事,都足以让人激动不已。谁会想到,一场词语使用的语法争论会通过“舍曼的步枪”来定论呢?

然而,我们是否应该相信上述结论呢?

或许吧。詹姆斯·麦克弗森是美国历史学会(American Historical Asso-ciation)的前主席,是一位传奇的历史学家。他的著作《为自由而战的呐喊》获得了普利策奖。此外,1887年《华盛顿邮报》那篇文章的作者想必亲历了“美国”一词用法的转变,也似乎没有什么比亲身经历更有说服力的了。

詹姆斯·麦克弗森虽然非常聪明,却并非不会犯错,而亲历者也可能会错误地转述事实。那么,我们有更好的方法来证实“美国”一词用法的转变吗?

或许有,我们可以让前面提到的机器人——那位阅读过所有图书馆藏书的虚拟机器人来发表一下其数据化的观点。

为了回答上述问题,我们假定那位“机器人历史学家”可以凭借其超强的记忆力绘制出图0-1。该图展示了各个时间段中“The United Statesis”和“The United Statesare”这两个短语在美国已出版的英文书中的出现频次。图的横轴代表年份,纵轴则表示这两个短语的出现频次——在每年出版的书中,每10亿个词中上述两个短语平均出现的频次。例如,在1831年出版的书中,机器人总共读到了313388047个词。在这些词中,短语“The United Statesis”出现了62759次。平均而言,1831年“The United Statesis”在每10亿个词中出现了20万次。

简易的词法分析器(从数羊到n元词组词频查看器)(2)

图0-1“美国”一词单复数出现频次比较

图0-1使我们可以非常清晰地看出,人们是何时开始采用单数形式来表达“美国”的。

这里有一个小问题:根据这个虚拟机器人所绘制的想象图来看,我们前面所说的战争和语言的故事便是错误的了。首先,“美国”一词从复数形式到单数形式的演变是一个漫长的过程,经历了19世纪第二个10年到20世纪80年代这150多年的时间。更重要的是,在这个演变过程中,“The United Statesis”和“The United Statesare”这两个短语在南北战争期间并没有发生突然过渡。实际上,在战争年代之前或之后两个短语的出现频次并没有多大的差别。复数形式到单数形式的演变在南北战争后虽稍有加速,却始于南方联军总司令李将军投降5年后。根据机器人绘制的这幅图,直到南北战争结束15年后的1880年,“美国”一词才作为单数名词开始在美国各州普及开来。甚至到了今天,“美国”一词的复数表达形式仍然在美国个别州有所出现。

当然,机器人历史学家只是我们假设出来的,因为拥有这样一个能够快速阅读完图书馆所有藏书、胜过获奖历史学家和亲历者的机器人似乎仍是一个遥不可及的梦。

除此之外,上面的结论都是正确的。

麦克弗森虽然聪明,却在“美国”一词单复数形式的演变上犯了错误。亲历者也没能准确地回忆出这一演变的发生历程。事实上,我们提到的机器人的确存在,而上文提到的图就是由这个机器人绘制的,且还有数十亿幅图在等着它绘制。如今,全世界的数百万人正在以一种新的方式纵观历史:透过机器人的“数字眼”来看历史。

大数据,看世界的新方式

一种新的透镜正在影响着我们看世界的方式,而这已经不是第一次了。

13世纪末,眼镜作为一种新发明像野火一般开始在意大利普及。短短几十年,眼镜从无到有,从新鲜事物变成了司空见惯的东西。在智能手机出现之前,眼镜对很多意大利人而言是一种不可或缺的装备——它将时尚性和功能性有机结合,是可穿戴技术的早期成功探索之一。

随着眼镜在欧洲与世界各地的普及,验光生意逐渐红火起来,而透镜生产技术则变得日益成熟和廉价。人们随后便开始尝试将多个透镜结合起来,以观测其效果。很快,人们意识到,只需要一点点工程技巧,多个透镜的组合便可以获得极大的放大效果。由此,人们开始制造复合透镜,用于揭示肉眼看不到的新世界。

复合透镜可以用来放大非常小的东西。显微镜帮助人们解开了至少两个有关生命的千古之谜。通过显微镜,人们发现,周围的动植物可以被细分成物理上彼此独立的微小单元。发现这一原理的英国物理学家罗伯特·胡克(Robert Hooke)指出,这些微小单元的排列方式类似于修道院的居住区,因此胡克将它们称为“细胞”。另外,显微镜还揭示了微生物的存在。这类生命体通常由单个细胞构成,却占据了生物世界中的绝大多数。在显微镜发明之前,没有人知道这种生命形式的存在。

复合透镜还可以放大距离遥远的东西。伽利略曾靠着一部放大系数为30倍的望远镜来探索宇宙之谜,按照现在的标准,这种望远镜不过是儿童玩具,但它却让伽利略看到了前所未见的东西。当这位佛罗伦萨的科学家将它对准月亮时,他看到了月亮上的山谷、平原以及影子总是背向太阳的山川。在此之前,人们一直认为,月亮是一个完美的球体。伽利略通过望远镜探索夜空中那条被称为“银河”的亮带,那时他可能会看到数不清的淡淡恒星,其实这就是我们今天所说的“银河系”。当伽利略将他的望远镜对准这些恒星时,他有了惊人的发现:他看到了金星的相位和木星的卫星,从而引领我们开始探索新世界。

伽利略的观测成果为驳倒托勒密的地心说提供了决定性证据。继而,人们又迎来了哥白尼有关太阳系的观点:太阳由旋转的行星包围着。在伽利略灵巧的手中,光学透镜——一个小小的光学技术的产物,不仅引发了一场科学革命,而且改变了宗教在西方世界中的地位。光学透镜产生的影响远不只是推动现代天文学的诞生,而是推动了现代世界的诞生。

即使是500年后的今天,显微镜和望远镜与科学进步依然息息相关。当然,这些设备已经改进了很多。传统的光学成像如今变得日益复杂起来,现代的显微镜和望远镜与过去的设备相比遵循的是完全不同的科学原理。例如,扫描隧道显微镜的原理源于20世纪的量子力学。然而,在天文学、生物学、化学和物理学等许多科学领域,其研究范畴仍然主要由它们实际可观测到的范围来界定——借助当前最好的显微镜和望远镜在这些领域中能够了解到的东西。

2005年,那时我们还只是研究生。我们花了很多时间来思考科学家们的研究领域及其研究方式是如何促进科学进步的。我们那段时间着迷于这种异乎寻常的想法。很长一段时间内,我们都对历史研究感兴趣,尤其是对人类文化的演变。有些变化是剧烈的,但是大多数则会细微到人脑几乎察觉不到的地步。我们想到,如果用一种类似于显微镜的东西来测量人类文化的演变,辨识和记录所有这些我们以前从未注意到的微小变化,那岂不是很棒?或者,我们能否有一种类似于望远镜的东西,使我们可以从遥远的地方做到这些事情,譬如从其他大陆或相隔几个世纪?概言之,我们是否可能发明出一种观测方式,让我们并非观测物理对象,而是观测历史变迁呢?

当然,即便我们的想法能够实现,我们所作出的也将不再是伽利略那样的贡献。毕竟,现代世界已经存在,太阳已经是太阳系的中心,诸如此类。基本上,我们每个人都已经意识到,观测方式非常重要。不过,当时在我们看来,设计出这样一种新的观测方式只是有助于我们从哈佛大学顺利毕业。毕竟对于我们这些正在攻读博士学位的低收入、受教育过度的人而言,能顺利毕业就是我们唯一可以期盼的事了。

在我们思考如何设计出一种新的观测方式这个有些怪诞的问题时,一场变革就已经在其他地方发生了,它一开始便让数百万人卷入了我们这个奇怪的想法中。这场大数据变革的核心是关于人类如何创造并保存自己的历史活动记录的。而其变革的结果将改变人类看待自己的方式,其带来的崭新观测方式则会使人们更有效地探索人类社会的变迁规律。大数据将改变人文科学和社会科学,重新界定商界和学术界之间的关系。为了更好地理解这些变革发生的方式,让我们从头详细回顾一下它的发展——从它不起眼的开始到引人瞩目的现在。

从数羊到数字化人文

一万年前,史前的牧羊人经常丢羊。接受失眠症患者的建议,他们想到了计数的方法。这些最早的“会计师”们用石头数羊,就像现在的赌徒用筹码记录输赢一样。

这一方法很有效。在接下来的4000年里,随着需要记录的物品种类日益增多,人们开始使用简单的雕刻工具在一些石头上刻录图案来做标记。这些图案用来表示人们计数的不同对象。最终,在公元前4000年,石器时代的祖先们开始在小石头上雕刻图案以记录一些事情,而伴随着要记录的事情不断增多,人们开始觉得这种记录方式很不方便。后来,人们想到了一种更为便捷的方式——在一块大石头上并排雕刻很多图案。于是,文字诞生了。

回想一下,数羊这样的日常琐事却推动了文字的诞生,似乎有些不可思议。人们对书面记录的诉求通常源于经济活动。毕竟,除非能够清楚地记录谁拥有什么,否则交易便毫无意义。因此,早期的人类文字大多和交易有关,人们记录了大量的赌注、单据和合同。所以,早在我们祖先的著作问世之前,我们首先拥有的是关于交易和利润的记录。实际上,许多文明甚至没有发展到记录和留下伟大文学作品的阶段,而我们通常会将文学作品和文化历史关联在一起。从古代社会留下来的东西主要是收据。如果不是这些为商业目的而产生的记录,对于古代文化我们将知道得少之又少。

这种感觉在今天比过去任何时候都更加真切。与我们的祖先不同,如今许多企业的商业记录不再只是商业活动的副产品。像谷歌、Facebook、亚马逊这样的公司,都在创建工具以便用户在互联网上表达自己的观点,并与其他用户交流。这些工具建立起了一个个数字化的个人历史记录。

对于这样的公司而言,记录人类文化成为了它们的核心业务。

不仅仅是像网页、博客、在线新闻等公共消费记录,私人通信也能通过电子邮件、网络电话或短信息等越来越多的在线方式进行了。而由此形成的通信记录经常以某种形式被多个实体保存着。无论是在Twitter上还是在Linked In上,我们的人际关系和商业关系都能被万维网罗列出来。当我们在谷歌上点赞、在社交网络上推荐或者发送一张电子贺卡时,我们的一些见闻和转瞬即逝的想法便在互联网上留下了永久的数字足迹。谷歌会记得那封充满愤怒的电子邮件中的每个字眼,但或许我们早已忘记了当时这封邮件是发给谁的。即便我们大醉醒来时头脑迷糊,Facebook上的照片也会记录下自己那晚在酒吧中的各种细节。谷歌会扫描我们写的书;Flickr会存储我们拍摄的照片;而You Tube则会播放我们制作的影片。

在我们体验现代生活所提供的各种便利时,互联网不断记录下了我们日益增多的数字足迹:具有惊人广度和深度的个人历史记录。

人类信息正在经历指数级增长

所有这些个人历史记录加起来有多少信息呢?

在计算机科学中,用于测量信息的单位是比特,简称“二进制数”。你可以将1个比特简单地理解为对某个“是”或“否”问题的回答,1代表“是”,0代表“否”。每8个比特被称为“1个字节”。

目前,一个人的数字足迹——每人每年在世界上产生的数据量,差不多有1太字节。这也相当于回答了大约8万亿个“是”或“否”的问题。同时,这也意味着人类每年会产生5泽字节的数据:40000000000000000000000(40×10#2#1)比特。

从直观上来看,如此庞大的数字很令人费解,那就让我们来尽量使其具体一点。如果我们手写出1兆字节所包含的信息,那么最终产生的0、1数字串的长度将是珠穆朗玛峰高度的5倍多;如果手写1吉字节,那么其长度相当于地球赤道的长度;如果手写1太字节,那么其长度相当于往返土星25次;如果手写1拍字节,那么其长度相当于往返宇宙中距离地球最遥远的人造物体——“旅行者1号”;如果手写1艾字节,那么其长度相当于从地球到半人马座阿尔法星的距离;如果手写人类每年产生的所有这5泽字节的数据,那么其长度相当于从地球到达银河系中心的距离。如果这5泽字节的数据不是通过收发电子邮件和播放流媒体电影产生的,而是像古代牧羊人那样数羊产生的,那么如此庞大数目的羊群会不留空隙地填满整个宇宙。

这就是人们将这类记录称为“大数据”的原因。不过,今天的大数据只是冰山一角。随着存储技术的进步、带宽的增加以及人们生活重心向互联网的逐渐迁移,现代人的数字足迹正以每两年翻一番的速度增长。[1]可见,大数据将变得越来越大。

科学家与人文学家走出“象牙塔”

在记录文化的方式上,古今最大的差异在于今天的大数据是以数字形式存在的。正如光学透镜能转换和操纵光线一样,数字媒体也能转换和操纵信息。只要拥有充足的数字记录和一定程度的计算能力,那么人类文化的相关研究就会达到新的制高点,我们也就有可能在认识世界以及理解我们在世界中的地位方面作出令人惊叹的贡献。

让我们来考虑这样一个问题:如果你想了解现代人类社会,那么你将去哪里寻求更有利的帮助?是一所拥有众多社会学家的一流大学,还是帮助人们实现在线社交的Facebook呢?

尽管,成为大学社会学系的教师可以让我们获益于那些一生致力于学习和研究的聪明大脑。然而,Facebook是10亿人日常社会生活的一部分,它知道人们在哪里居住和工作、和谁在哪儿交往、喜好什么、什么时候生病以及和朋友谈论的话题,等等。因此,答案很可能是Facebook。如果现在答案还不是Facebook,那么20年后,当Facebook或者其他类似的网站存储了万倍于当前的个人信息时,答案又是怎样的呢?

诸如此类的思考开始促使科学家和人文学者作出一些不寻常的举动:走出象牙塔,开展和大公司的合作研究。尽管这些合作者在观念和动机上的差异很大,但他们合作开展的研究类型是人们无法想象的——他们使用的是规模前所未有的数据。

斯坦福大学经济学家乔恩·莱文(Jon Levin)和eBay合作,研究市场中商品的价格是如何确定的。莱文发现,eBay商家经常进行小型实验来确定货物的价格。通过同时研究数十万个这样的定价实验,莱文和他的同事阐明了经济学中一个相对成熟但却仍然停留在理论阶段的分支——价格理论。莱文指出,现有的文献多数情况下是正确的,但有时也会有重大错误。莱文在这一方面的研究上作出了巨大贡献,使其获得了约翰·贝茨·克拉克奖(John Bates Clark Medal),该奖项是40岁以下经济学家能获得的最高荣誉,其得主往往直指诺贝尔经济学奖。

加利福尼亚大学圣迭戈分校的詹姆斯·福勒(James Fowler)带领他的研究小组和Facebook合作,对6100万个Facebook用户进行了实验。实验结果表明,当一个人听说自己的密友注册Facebook进行投票后,其注册的可能性会相应变大。而他们的朋友关系越密切,相互间的影响也就会越大。除了这一有趣的实验结果外,这个实验还被权威学术期刊《自然》做过封面特别报道。另外,实验还发现,2010年的美国选举中增加了超过30万张选票,而这些选票足以改变选举结果。

美国东北大学的物理学家艾伯特-拉斯洛·巴拉巴西[2]和一些大型电话公司合作,通过分析手机用户留下的数字足迹,研究数百万人的移动轨迹。巴拉巴西和他的团队提出了一种研究人类迁移的数学分析方法,并在多个城市进行实验。他们通过分析人类迁移的历史记录,有时甚至能够预测出人们接下来会去哪。

谷歌软件工程师杰里米·金斯伯格(Jeremy Ginsberg)领导的团队观测到:在传染病流行期间,人们很可能会去搜索流感症状、并发症和疗法。金斯伯格及其团队利用这一令人吃惊的事实做了更进一步的研究:他们搭建了一个可以实时查看某个特定地区的人们在谷歌中的搜索内容,从而识别出逐渐增多的流感传染区域的系统。在识别新传染病方面,他们设计出的这个早期预警系统在比美国疾病控制与预防中心(U.S.Centersfor Disease Controland Prevention)要快很多,尽管后者拥有庞大而昂贵的专用基础设施。

哈佛大学经济学家拉杰·切蒂(Raj Chetty)联系美国国家税务局(Internal Revenue Service, IRS),说服其共享某个城区数百万学生的信息。他和他的合作者将这些信息与学生课堂作业布置情况的信息合成了一个新的数据库,后者是由学校提供的。通过这个数据库,切蒂的团队可以知道哪个学生师从于哪位教师,从而能够开展一系列开创性的研究:能师从于一位优秀的教师对学生的长期影响以及一些其他政策介入产生的影响。他们发现,一位优秀的教师会影响学生上大学的可能性、学生们毕业多年后的收入甚至学生们今后生活中邻里关系良好的可能性。切蒂的团队用他们的发现来帮助改善对教师工作成效的考核。2013年,切蒂获得了约翰·贝茨·克拉克奖。

在极具煽动性的Five Thirty Eight博客中,前棒球分析师纳特·西尔弗(Nate Silver)研究了通过大数据来预测美国大选的赢家的可行性。他从盖洛普(Gallup)、拉斯穆森(Rasmussen)、兰德(RAND)、梅尔曼(Mellman)、美国有线电视新闻网(CNN)和许多其他网站上搜集关于总统民调的数据。利用这些数据,他预测到奥巴马将赢得2008年大选,并准确预测出了49个州以及哥伦比亚特区的选举人团的获胜者,唯一一个预测错的州是印第安纳州。预测准确率似乎已经没有多少可以提高的空间了。但是,在下一次大选中,他却的确提高了预测准确率。在2012年选举日的上午,西尔弗宣布,奥巴马有90.9%的可能性会击败罗姆尼,并准确预测了哥伦比亚特区和每个州的当选者,而这一次印第安纳州也没能例外。

使用大数据进行探索的实例还有很多,而且还在不断涌现。如今的研究人员利用大数据所做的实验是他们的前辈们做梦都想不到的。

包罗一切的数字图书馆

本书讲述的是一个有关对图书馆进行实验的故事。没错,我们的实验对象不是一个人、一只青蛙、一个分子或者原子,而是史学史中最有趣的数据集:一个旨在包罗所有书籍的数字图书馆。

这样神奇的图书馆从何而来呢?

1996年,斯坦福大学计算机科学系的两位研究生正在做一个现在已经没什么影响力的项目——斯坦福数字图书馆技术项目(Stanford Digitial Library Technologies)。该项目的目标是展望图书馆的未来,构建一个能够将所有书籍和万维网整合起来的图书馆。他们打算开发一个工具,能够让用户浏览图书馆的所有藏书。但是,这个想法在当时是难以实现的,因为只有很少一部分书是数字形式的。于是,他们将该想法和相关技术转移到文本上,将大数据实验延伸到万维网上,开发出了一个让用户能够浏览万维网上所有网页的工具,他们最终开发出了一个搜索引擎,并将其称为“谷歌”。

到2004年,谷歌“组织全世界的信息”的使命进展得很顺利,这就使其创始人拉里·佩奇(Larry Page)有暇回顾他的“初恋”——数字图书馆。令人沮丧的是,仍然只有少数书是数字形式的。不过,在那几年间,某些事情已经改变了:佩奇现在是亿万富翁。于是,他决定让谷歌涉足扫描图书并对其进行数字化的业务。尽管他的公司已经在做这项业务了,但他认为谷歌应该为此竭尽全力。

雄心勃勃?无疑如此。不过,谷歌最终成功了。在公开宣称启动该项目的9年后,谷歌完成了3000多万本书的数字化,相当于历史上出版图书总数的1/4。其收录的图书总量超过了哈佛大学(1700万册)、斯坦福大学(900万册)、牛津大学(1100万册)以及其他任何大学的图书馆,甚至还超过了俄罗斯国家图书馆(1500万册)、中国国家图书馆(2600万册)和德国国家图书馆(2500万册)。在撰写本书时,唯一比谷歌藏书更多的图书馆是美国国会图书馆(3300万册)。而在你读到这句话的时候,谷歌可能已经超过它了。

长数据,量化人文变迁的标尺

当“谷歌图书”项目启动时,我们和其他人一样是从新闻中得知的。但是,直到两年后的2006年,这一项目的影响才真正显现出来。当时,我们正在写一篇关于英语语法历史的论文。为了该论文,我们对一些古英语语法教科书做了小规模的数字化。

现实问题是,与我们的研究最相关的书被“埋藏”在哈佛大学魏德纳图书馆(Harvards Widner Library)里。我们要介绍一下我们是如何找到这些书的。首先,到达图书馆东楼的二层,走过罗斯福收藏室和美洲印第安人语言部,你会看到一个标有电话号码“8900”和向上标识的过道,这些书被放在从上数的第二个书架上。多年来,伴随着研究的推进,我们经常来翻阅这个书架上的书。那些年,我们是唯一借阅过这些书的人,除了我们之外没有人在意这个书架。

有一天,我们注意到我们的研究中经常使用的一本书可以在网上看到了。那是由“谷歌图书”项目实现的。出于好奇,我们开始在“谷歌图书”项目中搜索魏德纳图书馆那个书架上的其他书,而那些书同样也可以在“谷歌图书”项目中找到。这并不是因为谷歌公司关心中世纪英语的语法。我们又搜索了其他一些书,无论这些书来自哪个书架,都可以在“谷歌图书”中找到对应的电子版本。也就是说,就在我们动手数字化那几本语法书时,谷歌已经数字化了几栋楼的书!

谷歌的大量藏书代表了一种全新的大数据,其有可能会转变人们看待过去的方式。大多数大数据虽然大,但时间跨度却很短,是有关近期事件的新近记录。这是因为这些数据是由互联网催生的,而互联网只是一项新兴的技术。我们的目标是研究文化变迁,而文化变迁通常会跨越很长的时间段,这期间一代代的人生生死死。当我们探索历史上的文化变迁时,短期数据是没有多大用处的,不管它有多大。

“谷歌图书”项目的规模可以和我们这个数字媒体时代的任何一个数据集相媲美。谷歌数字化的书并不只是当代的:不像电子邮件、RSS订阅和superpokes等,这些书可以追溯到几个世纪前。因此,“谷歌图书”不仅是大数据,而且是长数据。

由于“谷歌图书”包含了如此长的数据,和大多数大数据不同,这些数字化的图书不局限于描绘了当代人文图景,还反映了人类文明在相当长一段时期内的变迁,其时间跨度比一个人的生命更长,甚至比一个国家的寿命还长。

“谷歌图书”的数据集也由于其他原因而备受青睐——它涵盖的主题范围非常广泛。浏览如此大量的书籍可以被认为是在咨询大量的人,而其中有很多人都已经去世了。在历史和文学领域,关于特定时间和地区的书是了解那个时间和地区的重要信息源。

由此可见,通过数字透镜来阅读“谷歌图书”将有可能建立一个研究人类历史的新视角。我们知道,无论要花多长时间,我们都必须在数据上入手。

数据越多,问题越多

大数据为我们认识周围世界创造了新机遇,同时也带来了新的挑战。

第一个主要的挑战是,大数据和数据科学家们之前运用的数据在结构上差异很大。科学家们喜欢采用精巧的实验推导出一致的准确结果,回答精心设计的问题。但是,大数据是杂乱的数据集。典型的数据集通常会混杂很多事实和测量数据,数据搜集过程随意,并非出于科学研究的目的。因此,大数据集经常错漏百出、残缺不全,缺乏科学家们需要的信息。而这些错误和遗漏即便在单个数据集中也往往不一致。那是因为大数据集通常由许多小数据集融合而成。不可避免地,构成大数据集的一些小数据集比其他小数据集要可靠一些,同时每个小数据集都有各自的特性。Facebook就是一个很好的例子。交友在Facebook中意味着截然不同的意思。有些人无节制地交友,有些人则对交友持谨慎的态度;有些人在Facebook中将同事加为好友,而有些人却不这么做。处理大数据的一部分工作就是熟悉数据,以便你能反推出产生这些数据的工程师们的想法。但是,我们和多达1拍字节的数据又能熟悉到什么程度呢?

第二个主要的挑战是,大数据和我们通常认为的科学方法并不完全吻合。科学家们想通过数据证实某个假设,将他们从数据中了解到的东西编织成具有因果关系的故事,并最终形成一个数学理论。当在大数据中探索时,你会不可避免地有一些发现,例如,公海的海盗出现率和气温之间的相关性。这种探索性研究有时被称为“无假设”(hypothesisfree)研究,因为我们永远不知道会在数据中发现什么。但是,当需要按照因果关系来解释从数据中发现的相关性时,大数据便显得有些无能为力了。是海盗造成了全球变暖吗?是炎热的天气使更多的人从事海盗行为的吗?如果二者是不相关的,那么近几年在全球变暖加剧的同时,海盗的数目为什么会持续增加呢?我们难以解释,而大数据往往却能让我们去猜想这些事情中的因果链条。

当我们继续收集这些未做解释或未做充分解释的发现时,有人开始认为相关性正在威胁因果性的科学基石地位。甚至有人认为,大数据将导致理论的终结。这样的观点有些让人难以接受。现代科学最伟大的成就是在理论方面。譬如,爱因斯坦的广义相对论、达尔文的自然选择进化论等,理论可以通过看似简单的原理来解释复杂的现象。如果我们停止理论探索,那么我们将会忽视科学的核心意义。当我们有了数百万个发现而不能解释其中任何一个时,这意味着什么?这并不意味着我们应该放弃对事物的解释,而是意味着很多时候我们只是为了发现而发现。

第三个主要挑战是,数据产生和存储的地方发生了变化。作为科学家,我们习惯于通过在实验室中做实验得到数据,或者记录对自然界的观察数据。可以说,某种程度上,数据的获取是在科学家的控制之下的。但是,在大数据的世界里,大型企业甚至政府拥有着最大规模的数据集。而它们自己、消费者和公民们更关心的是如何使用数据。很少有人希望美国国家税务局将报税记录共享给那些科学家,虽然科学家们使用这些数据是出于善意。eBay的商家不希望它们完整的交易数据被公开,或者让研究生随意使用。搜索引擎日志和电子邮件更是涉及个人隐私权和保密权。书和博客的作者则受到版权保护。各个公司对所控制的数据有着强烈的产权诉求,它们分析自己的数据是期望产生更多的收入和利润,而不愿意和外人共享其核心竞争力,学者和科学家更是如此。

出于所有这些原因,一些最强大的关于人类“自我知识”的数据资源基本未被使用过。尽管有关社会化网络的研究已经进行了几十年了,但几乎没有任何公开的研究是在Facebook上进行的,因为Facebook公司没有动力去分享他们的社会化网络数据。尽管市场经济理论已经有了几个世纪的历史,经济学家也无法访问主要在线市场的详细交易记录(莱文在eBay的研究只是一个例外)。尽管人类已经在绘制世界地图上努力了几千年,Digital Globe等公司也拥有着地球表面的50厘米分辨率的卫星照片,但是这些地图数据从未被系统地研究过。我们发现,人们永无止境的学习欲望和探索欲望与这些数据之间的鸿沟大得惊人。这类似于数代天文学家们一直在探索遥远的恒星,却由于法律原因而不被允许研究太阳。

然而,只要知道太阳在那里,人们对它的研究欲望就不会消退。如今,全世界的人都在跳着一支支奇怪的“交际舞”。学者和科学家为了能够访问企业的数据,开始不断地接触工程师、产品经理甚至高级主管。有时候,最初的会谈很顺利——他们出去喝喝咖啡,随后事情就会按部就班地进行。一年后,一个新人加入进来。很不幸,这个人通常是律师。

如果要分析谷歌的图书馆,我们就必须找到应对上述挑战的方法。数字图书所面临的挑战并不是独特的,只是今天大数据生态系统的一个缩影。

n元词组词频查看器,用数据驱动未来

本书介绍的是我们7年来在量化历史变迁方面进行的探索。我们的研究成果包括一种看待历史变迁的新视角和研究语言、文化、历史的一种计量方法,这种方法奇特而迷人,我们将这些统称为“文化组学”(culturomics)。

我们将介绍我们使用文化组学方法观察出的结果,也将讨论n元词组(ngram)数据在揭示英语语法演变、词典如何犯错、人们如何成名、政府如何压制思想、社会如何记忆和遗忘,以及文化如何以一种确定性方式运转等方面的应用。另外,我们还将探讨如何使预测人类未来成为可能。

当然,我们还会介绍我们提出的新视角,使用谷歌构建的被称为“n元词组词频查看器”(Ngram Viewer)的一种新工具,至于为什么会将这个工具取名为n元词组词频查看器,我们会在第2章进行介绍。自2010年发布以来,n元词组词频查看器绘制了不计其数的词频和观点随时间演变的图表。它就是我们开篇介绍的机器人历史学家。[3]它是一个勤奋的机器人,全世界有数百万各个年龄段的人在不分昼夜地使用它,都希望通过它来以一种新的方式去理解历史:绘制出未知领域的相关图表。

简易的词法分析器(从数羊到n元词组词频查看器)(3)

总之,本书介绍的是由一个机器人讲述的历史,通过数字透镜看到的人类历史。虽然在今天看来,n元词组词频查看器有些奇怪,但和几百年前的光学透镜类似,数字透镜正在日益普及。由于数字足迹持续延伸,每天都会冒出新的视角,揭示历史、地理、流行病学、社会学、语言学、人类学甚至生物学和物理学等未被人类了解的领域。世界正在发生变革,我们看待世界的方式也在发生变革,那么我们看待变革的方式呢?好吧,也在发生着变革。

量化人文一图胜千言?

1911年,美国著名报人阿瑟·布里斯班(Arthur Brisbane)对一些市场营销人员说过一句著名的话,一幅图“相当于1 000个词”。或许相当于“1万个词”,又或许相当于“100万个词”(见图0-2)?几十年来,这句话传遍了美国。布里斯班可能很恼火,因为这句话现在被认为是一句日本谚语。毕竟,他的听众是市场营销人员。

简易的词法分析器(从数羊到n元词组词频查看器)(4)

图0-2一幅图相当于多少个词

布里斯班实际上说了什么呢?我们的机器人不可能记录下这句话首次出现的地方。这里有一句日本谚语:

和人类说过的所有话相比,

谷歌扫描的书籍

不过是三行俳句而已。

不过,这个机器人可以帮助我们查看:布里斯班的标志性经济学理念是如何形成的。

事实表明,1 000个词、1万个词和100万个词,这些变种都是在布里斯班的著名评论之后很快出现的。在接下来的20年中,这三种形式相互竞争。起初,“1万个词”取得了领先。然而,到了经济大萧条的20世纪30年代,人们或许觉得“1万个词”和“100万个词”的要价太高了吧?无论是什么原因,那些年过后,“一幅图相当于1 000个词”的表达方式渐渐成为主导,并将另外两个竞争者远远甩在了后面。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页