曾亮的nlp课（清华大学孙茂松）

我为你倾心 2022-11-10 21:40:35

收藏赞分享

曾亮的nlp课（清华大学孙茂松）(1)

来源 | 智源社区

编辑 | 陈彩娴

自然语言处理一直被誉为人工智能皇冠上的明珠。

一方面，实现语言智能十分艰难。尽管机器人在电竞、围棋等方面频频超越人类，但目前的系统仍无法达到三、四岁孩童的语言和理解能力。

另一方面在于自然语言处理本身对实现智能的重要性。

清华大学教授、智源首席科学家孙茂松认为，自然语言处理是机器智能难以逾越的鸿沟，已经成为限制人工智能取得更多突破的瓶颈之一。

近期，在智源研究院成立两周年之际举办的“智源论坛2020”中，八位智源学者针对当前自然语言处理领域的发展提出思考和看法，从多学科的角度启发新一代自然语言处理技术，为解决当前面临的三大真实挑战，提出可借鉴观点。

自然语言处理方向：孙茂松、张家俊、何晓冬、万小军、刘知远

机器学习方向：颜水成

认知神经基础方向：宋森

智能信息检索与挖掘：赵鑫

整个研讨分为两部分，首先由清华大学孙茂松教授做引导报告《自然语言处理面临的三大真实挑战》，随后八位学者围绕多个问题进行探讨。

1 NLP面临的三大真实挑战

曾亮的nlp课（清华大学孙茂松）(2)

图注：孙茂松

清华大学孙茂松教授在引导报告《自然语言处理面临的三大真实挑战》中阐述了对于自然语言处理发展前景的看法。指出自然语言处理在历史上有两大范式——理性主义、经验主义，经验主义从九十年代到现在分为多个方向，2018年到现在，是大规模预训练语言模型。”但大规模预训练模型并不能真正理解更有深度的问题，因此并不能一味追求大规模的趋势，而是应该多轨共同发展。孙茂松教授提出了当前亟待攻破的挑战，分别是：

挑战之一：形式化知识系统存在明显构成缺失。例如现有的知识图谱大而不强，虽然规模大，但是实体间关系浅，缺少关于动作的三元组、事件间的逻辑关系。称之为知识图谱“三缺其二”。

挑战之二：深层结构化语义分析存在明显性能不足。解决知识图“三缺其二”问题依赖于对语言进行深层次语义分析。近年来对语义的分析取得了长足的进步，但是对深层结构化语义分析“欲行却止”。

挑战之三：跨模态语言理解存在明显融通局限。目前对跨模态语言理解的研究方兴未艾，是新的重要研究前沿，但是跨模态关系因缺乏深层结构化语义分析和世界知识导致推理能力较弱，存在“形合意迷”的问题。

针对这三大挑战，孙茂松教授提出了与其对应的三个目标愿景：知识图谱从“三缺其二”到“三分归一”；深层结构化语义分析从“欲行却止”到“且行且进”；跨模态语言理解从“形合意迷”到“形合意合”。以跨模态、大数据、富知识“三足”，通过经验主义加理性主义的研究方法，迎接挑战。

论坛的讨论由此展开，每位嘉宾根据孙茂松教授提出的三个挑战及其愿景来谈自己的看法和观点。

2 论 | 富知识

曾亮的nlp课（清华大学孙茂松）(3)

图注：张家俊

来自中科院的研究员张家俊强调了大数据、富知识以及多模态对于实现自然语言处理的终极目的重要性。

张家俊长期从事数据和知识的结合以及以文本为核心的多模态信息处理研究，对于数据和知识之间的关系，张家俊阐述了两个观点。

第一，现有的知识图谱仍然比较简陋。从某一个领域突破，构建一个大而全的知识图谱是一个比较可行的方案。

第二，我们需要探索新的方法表示知识。以机器翻译的三个方向发展来看，一开始是基于规则或者基于知识的模型，后来发展到统计方法，统计方法出现之后，知识开始结合在统计翻译模型里。但到深度学习或者神经机器翻译时代之后，知识的离散符号表示和连续向量表示无法结合。大规模的知识是从大规模的数据中而来，而深度神经网络善于从数据中学习，不善于融入结构化知识，那么我们需要探索新的方法，将常理知识转换为高频出现的数据，从而让深度神经网络模型更好地学习结构化的常理知识，提升系统性能。

近期，关于词典知识在神经机器翻译中的应用研究中，张家俊发现，这一方法确实可以提高性能，其工作目前仍在推进中。

曾亮的nlp课（清华大学孙茂松）(4)

图注：万小军

北京大学万小军教授发表了对知识和数据这两方面的看法。他认为知识对自然语言理解非常有帮助。可以从文字自身学习来看。小时候学习时，只看一堆文章，没有任何注释，也没有老师教我们体系，但也能学到一些东西，能自己估摸出这个词是什么意思，能够推理出来，但是还是比较慢，如果有一个人指导，有一个书把知识体系写出来之后，再看这个文章后能够帮助理解更加透彻和更快进步。

但是现在的知识图谱中的知识很浅，大数据驱动的方法学到的知识也是浅层的，这种“大力出奇迹”的方法更多的是记忆而不是智能，希望未来能将语言学的知识融入模型中得到更好的性能。

曾亮的nlp课（清华大学孙茂松）(5)

图注：赵鑫

中国人民大学长聘副教授赵鑫非常看好知识和数据的融合这个方向，但是目前从文献中没有看到对知识的一个确切的定义，而计算机本身需要对其输入进行形式化表示，如果没有形式化的定义就很难去界定什么是知识。在NLP领域更多是通过关系抽取去构建目前最常用的三元组的知识，但是这种表示的知识是非常浅层有限的。

另外一点是，对于大规模的预训练语言模型，是否能够看作知识库？比如GPT-3这种预训练模型，它的确可以给出一些不错的预测，但是也有可能出错，比如回答“中国的首都是北京”，也许模型可以回答，但是这是否是知识，仍待探究。

3 论 | 多模态

曾亮的nlp课（清华大学孙茂松）(6)

图注：何晓东

来自京东数科的何晓东博士认为有效利用多模态信息是走向通用人工智能的非常重要的方向。因为人的信息肯定是从多个模态来的，很多信息光读文本很难判断。

举个简单例子，光看文本不能区别出颜色的意义，红色、绿色对文本来说是个符号。所以从这个角度来说，多模态肯定是 AI 走向通用智能的重要方向。但另一方面，利用多模态信息也非常困难。比如“看图说话”这件事情以前一直做不了，是因为图片本身的模型算法和语言算法完全不一样，到了深度学习提出概念做Embedding以后，才看到一些有意思的新希望。

近年有研究将不同模态的数据表示投影到统一的连续空间，在这个空间中做转换运算，将原始的输入转换为抽象的表达，从这些抽象的表达中生成文本或图像。在这类研究中，如何学习一个通用的共有的语义空间，使得不同模态的信号能进行比较或者进行计算转换，以及在不同模态之间如何做映射，都是值得研究的问题，也是最近逐渐兴起的研究方向。

这个方向有些意义和用途，比如最近很多做人工智能内容生成的算法模型开始实用化，京东用类似的模型，给定商品规格、商品图片，就可以生成一段关于描述这个商品的广告词，这是一个很简单的应用。

反过来也一样，例如画一幅画，描述画一只鸟，是蓝色的背、红色肚皮，模型就可以创作出来，可以做更多创作性应用。另外何晓东博士指出，孙茂松教授提出的三个挑战对应的愿景是很好的技术路线，是否能定义一个评价标准，或者是一个具体的任务，来作为向这些愿景前进的量化评判方法。例如知识图谱从“三缺其二”到“三分归一”中，对于三元组的知识现有的评价任务是QA，而“三缺其二”中的“其二”可能需要更具现实意义的大规模任务来判定，这个任务是什么。其他两个愿景也是如此，应该利用什么任务进行评判。

曾亮的nlp课（清华大学孙茂松）(7)

图注：颜水成

颜水成博士从三个维度论证了多模态研究的重要性。

首先，观察自己女儿的学习过程，颜博士发现女儿明显通过图片、文字，声音等多模态形式的输入积累，知识才慢慢增长。与此同时，认识的文字，物品越来越多。因此，多模态相互作用，才能学得更好。既然人的学习是多模态共同的结果，机器学习应该也是一样的道理。

第二点，从人脑的一些研究表明，当人闭上眼睛只听声音时，视觉中枢神经元也会被激活；也就是说人脑中多模态在某些程度已经共享了一些东西了。

第三，用图表示的形式处理文本、图像或音频都有一些不错的效果，图网络的形式跟人脑神经的连接形式是非常类似的，图无序的节点用某种机制去做一个操作之后产生下一层，这种机制在图像、语音和语义领域似乎是共享的，说明文本、图像或音频数据中的知识有些是可以共享的，这可能是一个值得探索的问题。

曾亮的nlp课（清华大学孙茂松）(8)

图注：宋森

清华大学宋森研究员从脑科学的角度给出了关于多模态的解释。

NLP的脑科学研究中，通过深度神经网络中的节点参数与人脑神经元做对应的研究发现，语言不是人脑思考过程中最终的媒介。对于解码语言与理解语言的信息，大脑中是对应于不同层次的，理解信息是在更高的层次。

因此，比如像BERT这样的模型可以对应我们语言感知的层，它能够模拟我们解码语言的层次，但并不能理解。更高一点的层次在研究中发现是具有多模态特征的。

第二点是结合人脑对于记忆的操控，在NLP领域对信息进行处理时引入时间维度。在大脑中的时间是用嵌套的震荡的模式来实现的，也有比较长的，也有比较短的。引入时间可以考虑到人的思维特点。

第三点是设计多模态的任务时能否结合大脑神经元的工作方式去考虑。另外他赞同孙茂松教授关于知识层面表示的观点，在人脑中确实关于表征动词和名词的震荡很不一样，甚至是在不同的区域。

曾亮的nlp课（清华大学孙茂松）(9)

图注：刘知远

清华大学副教授刘知远认为大规模预训练模型还是存在很大的缺陷，例如生成的语言没有逻辑性，前后没有照应关系；预训练参数空间学到的是浅层的语义表示，而没有学到深层的语义知识；另外语言模型无法学到知识的层次性，不能抽象出高层的语义。因此模型不知道自己哪些知识是不知道的，这是预训练语言模型亟待解决的问题。

4 论 | 自由讨论

自由讨论环节，学者们针对先前的问题，诸如学科交叉、知识表达等，进行了更为深入的探讨。

颜水成博士表示，无论是用类似神经网络的形式建立知识体系，还是像先贤们那样说用一个形式化的系统，用一个符号化的系统把这些知识表现出来，无论怎么样都需要一种能力，把人类对世界认知的方式显式地在模型内部或外部表示出来。

另外，颜水成抛出了三个问题。

第一，关于NLP知识的表示，例如三元组，是否跟人的大脑中知识的表示有关系？
第二，有很多人是文盲不识字，但是一样可以做推理，仍然具备语言能力，这个在脑科学中如何解释？
第三，不同语言在大脑中是否有不同分区？

场下学者指出，不同语言的分区是不一样的，例如英语和汉语在大脑中是不一样的。

何晓东博士提问，如何能将知识、记忆、推理统一起来？之后，学者们的讨论聚焦在知识本身的定义问题。例如其与语言的关系，不同与语言是否对应不同的知识、知识与记忆的区别、意识的分层。在场的学者纷纷发表看法，并从多学科的视角进行讨论。

自然语言处理面对三大真实挑战。自然语言处理被称作“人工智能皇冠上的明珠”。许多知名学者都有很多论述，比如图灵奖得主Yann LeCun说“深度学习的下一个前沿课题是自然语言理解”等。

曾亮的nlp课（清华大学孙茂松）(10)

我个人认为，以自然语言为语义的理解是机器难以逾越的鸿沟。语言这关如果机器搞明白以后，机器就真的成精了，那个时候人类就真有危险了；但现在还不是，这就进一步彰显自然语言处理的困难，它已经成为制约人工智能取得更多突破的主要瓶颈之一。这是我的基本判断。

曾亮的nlp课（清华大学孙茂松）(11)

自然语言处理在历史上有两大范式——理性主义、经验主义。经验主义从九十年代一直到现在又分了几波；从2018年到现在，是大规模预训练语言模型 BERT 到GPT-3 这一路。今天很多都在谈GPT-3，可见这个事对我们的震动。

曾亮的nlp课（清华大学孙茂松）(12)

我理解它是三个极大——极大规模模型、极大规模数据、极大规模计算。光大还不够，得加个极，给人好像有“量变引起质变”的感觉，一是它的性能超乎想象，二是它有些科学现象比较奇怪，跟我们一般机器学习的道理不太一样，所以它有“量变引起质变”的趋势。

曾亮的nlp课（清华大学孙茂松）(13)

我们感觉GPT-3有这种趋势，但是“质”的问题却始终解决不太好，特别是深度的问题，比如 QA中，问它一些基本常识没问题，但是如果你刁难它问“烤箱和铅笔哪个更重”，因为它没有知识，它就说“铅笔比烤箱重”。所以现在GPT-3有没有到“质变”，还不好说。在机器翻译上，也赶不上常规的办法；像故事理解等这种涉及到深度理解的也不行。所以某些任务可以，某些任务还是不行。

曾亮的nlp课（清华大学孙茂松）(14)

未来自然语言研究范式走向会是什么呢？我们打个问号，它是不是就沿着三个“极大”往下走？我们认为可能不是。

从人的角度、机器的角度两方面综合考虑，我们认为新范式应该是经验主义和理性主义的融合，我们叫“大数据”和“富知识”双轮驱动，现在大数据非常充分，但知识这块用的很不充分，我们认为要把知识加强。这个说法可能是我们这个方向未来几年要重点推进的一个方向，我们会沿着这个路子去做。

这里面面临三个挑战：

曾亮的nlp课（清华大学孙茂松）(15)

语义理解挑战一：形式化知识系统存在明显构成缺失。现在都讲知识图谱规模多大，包括DBpedia、freebase等,几十亿个三元组，但是我认为这些知识大而不强。举个例子，你去看wikipedia的“关羽”，它只有一些最简单的关于关羽属性描写，关羽是个人，关羽是个将军，关羽是蜀国的，关羽他儿子是谁、孩子是谁、生在哪、死在哪，大概就这些知识，所有关于关羽的“过五关斩六将”、“三英战吕布”等等所有事情通通没有。

IMB研究者指出Watson DeepQA中问答问题只有不到 2% 可以从DBpedia、Freebase等知识库中直接匹配到，间接就说明了我们这个观察，所以这里面缺什么呢？缺关于动词、关于动作的三元组，就是关羽在哪崭了华雄，这个没有主谓宾，主语是“崭”，谓语是“关公”，宾语是“华雄”，你得把这个说出来。因为我们没有从句子分析三元组主谓宾的能力，所以这件事情做不成，所以这是系统的缺失，关系事实描述几乎是没有的，这是严重的缺失。

另外，event和event的逻辑关系，比如“关羽丢了荆州”和“关羽攻打繁城”是什么关系，关羽攻打繁城是丢了荆州的原因，这块现在是没有的。

所以现在的知识库“三分天下”，“缺了两分”，只是关于静态描述比较清楚，关于事件的描述几乎没有，关于事件与事件之间的关系几乎没有，所以叫“三缺其二”，这是个大的问题。这种知识从哪来呢？从简单事实来。我说的那“两分天下”必须从文本中找，尤其从正文中找、从web上找，道理上这些东西都有，我们现在没有本事把它找来。

曾亮的nlp课（清华大学孙茂松）(16)

语义理解挑战二：深层结构化语义分析存在明显性能不足。三分天下把“两分”拽过来，应该把两个句子间的关系找过来，这是最大的瓶颈。这些年来语义分析取得了长足的进步，像CoNLL2019英语语义分析评测F值达到86%。我也试过一些中文的、英文的，语义分析很难，但是这些年已经有很好的进步。但也有很多挑战，像面向新闻好一些，但是面向wikipedia分析挺难的，因为后者各种领域文本都有，还有非规范文本，分析精度会大幅度下降。这里建立多元知识图谱又是个瓶颈，这个问题不解决对文本就没法进行分析。同时，如果有了知识库，对文本分析也会提供帮助，这两个存在“鸡生蛋，蛋生鸡”的问题。

曾亮的nlp课（清华大学孙茂松）(17)

挑战三：跨模态语言理解存在明显融通局限。这不是语言本身的问题，是自然语言往外再走一走，跨模态、跨媒体的问题。人的认知是多模态的。单个模态的理解，对智能来说是简单的任务，但是用视觉去理解比较复杂的场景，如果没有文本的辅助就会非常吃力，做不到开放领域，只能在稍微宽的领域内有效。所以这里面有一个跨媒体、跨模态融合的问题。

我认为现在的系统用的词叫“形合意迷”，文本和图像基本上是两笔糊涂帐；两笔糊涂账的形式合起来了，意思却抓不住，对了就对了，不对也就拉倒，大概是这样的状况。但这是个挑战，自然语言处理能力上去了，知识也上去了，按说肯定会对图像视频的理解有帮助。现在文本的QA可以做到93%，人类是89.5%；视觉问答还只能做到76%，如果需要文本结合，就只有33.8%，一下就下来了，这是个明显的短板。

曾亮的nlp课（清华大学孙茂松）(18)