网络流行语的特征和翻译方法研究(谷歌发布用于有监督词义消歧的大型语料库)
选自Google Research Blog
机器之心编译
参与:微胖、朱思颖、蒋思源
理解特定单词在文本中的各种意思是理解语言的关键。比如,句子「he will receive stock in the reorganized company」中,根据新牛津美语词典(NOAD),我们依据上下文可以知道「stock」是指「公司企业通过发行和认购股份筹措到的资金」。但是,词典中,从「存货(goods in a store)」到「一种中世纪刑具」,stock 的定义有十多个。计算机算法很难区分这些意思,过去,人们形容这一问题难度「与解决强人工智能核心问题的难度不相上下(AI-complete)」(Navigli, 2009 Mallery 1988 )。
为了帮助解决这个难题,我们很高兴发布了基于流行的 MASC 和 SemCor 数据组的词义标注,人工标注了 NOAD 的各种词义。我们也在发布 NOAD 词义到 English Wordnet 的映射,研究社区更常用到这个。这是最大的全词义标注英文语料库发布之一。
方便从文本自动构建数据库,从而可以回答问题和链接文本中的知识。例如,理解「hemi engine」是一种自动化的机械,「locomotive engine」是属于火车的,或者也可以是说「Kanye West is a star」意味着他是一个名人,而「Sirius is a star」意味着它是天文学客体。
消除查询中的词的歧义,使得「date palm」和「date night」或「web spam」和「spam recipe」等查询可以被解读出各自不同的含义,并且使得根据该查询所返回的文档具有和该查询相同的含义。
人工标注
在我们发布的人工标注数据集中,每一个词义标注(sense annotation)由五个人评估。为了确保高质量的语义标注,评估者首先会进行黄金标注(gold annotations)的训练,这个训练事先是由经验丰富的语言学家在单独试验研究中标注。下图显示了标注者在使用我们标注工具时的工作页面。
页面左侧列出了所有候选的字典词义(在这个例子中是单词「general」)。字典中的例句也会提供给标注者。在页面右侧,需要被标注单词会在句子中突出显示。除了将单词链接到字典词义之外,评估者还能标记如下三个异常:单词拼写错误、无上述情况(none of the above)和标注者不能决定。评估者同样可以检查词的使用是不是一种隐喻,并可以留下评论。
用于此发布的数据进行词义标注任务使用 Krippendorff's alpha 测量达到了 0.869 的评估者间可信度值(inter-rater reliability score)。在 Krippendorff's alpha 中,α >= 0.67 就可以考虑是可接受的再现性结果(reproducibility),α >= 0.80 就是很高的可再现性结果。下面列出来了标注数:
Wordnet 映射
Wordnet 地址:https://wordnet.princeton.edu/
我们也发布了两套 NOAD 到 Wordnet 的映射。小一点的那一套,我们采用上述类似词义标注的方法,人工映射了 2200 个单词,大一点的那一套是算法创造的。这些映射有助于将 Wordnet 的资源应用到这个 NOAD 语料库中,也有助于用这套语料库评估使用 Wordnet 构建的系统。
在这一语料库上使用基于 LSTM 的语言模型以及半监督学习的全部研究结果,请参阅论文《Semi-supervised Word Sense Disambiguation with Neural Models》。
致谢
这一数据库的建立离不开以下人员的帮助:Eric Altendorf、Heng Chen、Jutta Degener、Ryan Doherty、David Huynh、Ji Li、Julian Richardson 和 Binbin Ruan。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com