excel遗传学(当遗传学遇上Excel格式化)
全文共3792字,预计学习时长10分钟
图源:lynda
Simon很喜欢做电子表格,他喜欢把数字一列列地排列起来,然后通过公式来处理这些数据,这种做法的难度介于编写代码和做笔记之间。
Simon不仅有做账单的表格,还有用于记录各种项目、假期和爱好的表格。即使是深藏阁楼、许久不用的东西也有一个表格记录,Simon的新年决心也写在电子表格中。
每次当他开始思考某件事时,就会自动打开一个新表格,然后把想法分成不同的行和列。这里不恰当地引用一句Abraham Maslow的话,“如果你仅有一张电子表格,那么所有的东西都可以都成一个单元格。”
不过像Simon这样钟爱电子表格的人并不多见。事实上,只要你使用过Excel,就会很清楚它的缺点。在表格中输入一个电话号码,如果很不走运的话,它就会变成8.E 09,再好一点的情况可能就是没有前面这个0。有时候数字还会变成日期,有时候日期又会变成数字。Simon已经习惯看#N/A了。
上述这些事情都非常恼人,但你终究会习惯的。然而,如果你是一名遗传学家,这就会影响到你的工作了。
将大多数基因输入到Excel中并没有什么问题,比如“Myosin regulatory light chain interactingprotein”(缩写为MYLIP),但如果输入“Membrane-associated ring-CH-type fingers”(缩写为MARCH1),Excel就会把它识别成日期,并且还会“非常有效”地将其转换为2020年3月1日。
Simon对此很感兴趣,这是一种奇怪的边界情况。当第一位Excel软件工程师编写出扫描文本并将特定值转换为日期的功能时,谁会想到有一天它会把科学研究文档搞得一团糟呢?
Simon感到如释重负,因为他不是唯一与Excel做斗争的人。但是,这种基因格式化的问题,不仅仅是一个有趣的怪现象而已,实际上它是一个令人惊讶的大问题。
四年前,科学家在一项研究中写道:“对领先的基因组学期刊进行程序性扫描,结果显示,额外的Excel基因列表的论文中,约有五分之一都存在基因名称转换的问题。”事实上,自2004年以来,科学家们就一直在写Excel给他们带来的各种问题。二十年来,这个令人哭笑不得的现象就一直困扰着基因组学杂志。
图源:Getty Images
直到几周前,人类基因组命名委员会(HGNC)决定重新命名这些有问题的基因,这样它们就不会在Excel中转换成日期了。MARCH1变成了MARCHF1, SEPT1变成SEPTIN1,以此类推。换句话说:基因学家们非常恼火Excel把他们的数据弄乱了,于是他们更改了官方的科学名称,让它们更加适合Excel。
这其中蕴含卡夫卡式的内容。崇高与平庸产生了联系,这太不可思议了:重要的科学工作遇上了Excel格式化。看到全球范围内的人都与我们拥有相似的经历,是一种很奇妙的感觉。你绝对想不到遗传学整个行业,会和微不足道的个体遇到一样的困扰。
网友们最开始抱着一种娱乐的心态,后来,Simon发现了三种截然不同的反应。
第一种反应是“学会正确使用Excel”。也就是说,Excel本身没有什么问题,只是科学家没有正确地使用这个工具。如果他们希望数据保持原样,而不进行格式化,他们就应该在值之前添加一个撇号,或者应该将列的类型设置为文本格式。他们的数据被弄乱是他们自己的错,这是对科学界不熟悉计算机操作的控诉。
第二种是“科学家无论如何都不应该使用Excel”的说法。对于科学家来说,Excel是一个过于简单的工具。他们应该使用Matlab、R,或其他高级脚本语言或应用程序来处理他们的数据,这样他们就不会有这个问题。
最后,还有那些讨厌微软的人表示,数据被破坏了要归咎于微软。Excel不应该将这特定的27个基因识别成日期了,其他基因也不可以转换成任何时间。Excel是人类的祸害,我们应该和科学家一起对微软发起攻击,让他们改变他们的方式。
图源:unsplash
Simon对所有这些观点都表示同情,但真相肯定介于两者之间。人类基因组组织(HUGO)做出这一改变时,是因为每个人都处于一个进退两难的境地——科学家和有着截然不同的计算机技能的实验室助理之间、遗传学家和软件向后兼容性之间。
当然,许多科学家都将学习数据格式以及阻止数据转换为日期的方法,但意外还是会发生。如果表格被保存为CSV格式,再次加载到Excel中,还是会被破坏。初级研究人员总是忘记这一点。一位遗传学家告诉TheVerge网站的工作人员:“这真的很烦人”,数据格式让研究人员措手不及。
对于微软来说,这是一个奇怪的边缘问题,这27个基因只是碰巧匹配到了可以读取为日期的字符串。公平一点来讲,月份的名字是排在第一位的。(事实上,当Excel被编写出来时,这些基因还没有命名。)
也许在某个时候,这个问题能得到公众广泛的关注,然后微软就会发布一个新的Excel版本,其中日期解析代码会进行修改,使这些基因名称绝不会转换为日期。但这是一项繁琐而复杂的工作,即使微软进行了更新,也需要数年时间才能产生影响,因为世界各地的大学都在逐步更新他们的微软软件企业协议,并且更新到了最新版本的Excel。
更有可能的情况是,如果微软已经收到了这个问题的警告,他们只会发送一个链接到相关的知识库文章。
就像萧伯纳那句名言——他们是主动适应世界的理性的人,还是被动适应世界的非理性的人。基因学家们也必须做出选择,他们需要适应的是自己。
关于这两个实体的相对权力,这里有一些有趣的政治观点。也许这是关于人类在计算机方面普遍存在的一种低水平的、无能的一点,或者是关于Excel本身。
图源:unsplash
大约十年前,前微软的Excel程序经理Joel Spolsky指出,“大多数Excel用户从不使用公式。他们只在需要表格时才使用Excel。网格线是Excel最重要的功能,而不是重新计算。”
批评集中在微软身上,因为Excel已经成为电子表格的通用品牌。但是同样的问题也出现在谷歌表格中,所以即使微软改变了Excel,这个问题也不会消失。
为了完整起见,Simon还尝试将基因导入苹果的电子表格软件Numbers中,并发现它并不会将MARCH1重新格式化为日期。虽然这对遗传学家来说是件好事,但这种自动格式检测的缺失是否是Numbers不受欢迎的原因之一呢?
Simon已经被这整件“坏事”迷住了,它似乎代表着一个更宏大的东西:在科技面前,我们无能为力,甚至整个行业都无能为力。
他发现软件有限、脆弱、不好用、往往不适合这项任务,通常也会思考软件是如何传遍世界、渗透并侵入每个行业的每一个方面的。我们离不开软件,每张桌子的电脑里,每个房子里,甚至在每个口袋、每个商店和办公室里,都会运用到软件,每一个动作和思想背后都有一台电脑。
我们不能为了行业的工作而改变软件,就像我们不能改变潮汐的变化一样。现成的应用程序是一种自然的力量,科研人员要避开软件的限制,就像水手要避开潮汐图一样。
Simon下载了对他来说毫无意义的基因数据表格,只是为了玩玩和找出错误而已。这是一个关于错误格式化基因的游戏,名叫Where’s Waldo。当他发现自己在对这个问题进行哲学思考时,想到这个行业必须继续发展下去。
整个事情当然是荒唐可笑的,但人类基因组命名委员会做出了一个明智且务实的决定,这让遗传学家们很高兴——对抗一场本质上不幸但也很有趣的命名冲突。
这个故事有个有趣的结尾。浏览基因列表时,他看到了一些其他的名字。其中一种基因被命名为“Sonic Hedgehog”(音猬因子),部分得名于电子游戏角色和乐队Sonic Youth;另一种叫做“Bag of Marbles(一袋大理石)”;还有Cheap Date(廉价的日期)、Buttonhead(半圆头)和Dunce(傻瓜)等等。
有很多这样的名字,这听起来有点好笑,但如果你是医生的话就不会这么觉得了,你会小心翼翼地告诉父母,他们的孩子有很严重的健康问题,你必须严肃地解释,他们的One-Eyed Pinhead(独眼针头)有一个突变。
图源:unsplash
在读到这些之前,Simon对基因的无知让他相信这些名字是科学家们精心设计的。但事实是,这些名字不得不因为Excel这样微不足道的原因而被重新命名。总的来说,科学家们似乎松了一口气。
Simon认为,Excel的故事能激发人们想象力,原因之一在于科学的神圣性,以及我们对逻辑严密、以研究为导向的科学家们的假设。科学家们并不是我们那样到处开玩笑,然后给基因取个愚蠢的名字;但也像我们一样,科学家们也只能试图最大化运用他们拥有的软件。
留言点赞关注
我们一起分享AI学习与发展的干货
如转载,请后台留言,遵守转载规范
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com