华裔ai专家李飞飞(李飞飞最新演讲)
2017中国计算机大会(CNCC2017)于10月26日在福州海峡国际会展中心开幕,大会为期3天。
而就在今天上午,李飞飞、沈向洋、汤道生、马维英等重磅大咖纷纷登台演讲。
据悉,斯坦福大学人工智能实验室和视觉实验室主任李飞飞此前已被邀请两届,今年终于来参会,带来了其实验室的最新研究成果——实时视频描述。李飞飞从5.4亿年前的寒武纪大爆发开始讲起,强调了视觉是智能的基石;而作为微软全球执行副总裁微软五名核心成员之一的沈向洋博士也参加了会议,他也带来了犀利的观点:得语音者得天下。
AI科技大本营第一时间将李飞飞英文演讲及沈向洋的中文演讲整理出来,附PPT截图,希望对你有帮助。
李飞飞:ImageNet之后,计算机视觉何去何从?
今天,我就想和大家来分享实验室的思考和一些比较新的工作。
这是去年发布的,今年,就在几个月以前,我们又往前进了一步,开始生成段落。
当然,你可以说只要先生成句子,然后将句子串联起来就成了段落,但是通过这种方式生成的段落并不能令人满意。我们并不想随意地将句子组合起来,我们必须思考如何将句子组合起来,如何让句子之间的过度更加自然,这些就是这篇论文背后的想法。尽管我们已经可以生成段落,但是结果仍然不能令人满意,但是这种方式可以完整地描述场景内容。
自动分割视频关键部分
就在几天前,我的学生在威尼斯举行的 ICCV 大会上展示了我们的工作。我们将原来静态图片上的工作延伸到了视频上,在这个领域,如何检索视频是一个问题。目前,大部分关于视频的工作,要么是通过一些关键目标来进行检索,或者对一个事件(如打篮球)进行整体描述。
但是在绝大多数的长视频中,里面发生的事件不只一个。于是我们建立了一个包含 20000 段视频的数据集,并对每个视频进行注释,平均每个视频 3.6 个句子。然后我们提出了一种能够在整段视频中临时查看的算法,它能够自动分割视频中的关键部分,然后用句子描述出来。
对于其完整的模型结构,不过我不打算细讲。这个模型的开始的部分是对视频中的 C3D 特征进行特征编码,剩下的部分则是如何找到关键部分并生成描述。
我们跟其他的方法进行了对比,尽管我们是第一个这样做的,但是和其他的方法相比,我们的方法展现了非常不错的前景。
这种工作才刚刚起步,但是我非常兴奋,因为在计算机视觉领域,人们对视频的研究还不够,而这种将视频和自然语言处理连接起来的能力将会创造非常多的可能和应用领域。
从SHRDLU到CLEVR:模块世界 自然语言
演讲的最后部分仍然是关于视觉理解和自然语言处理的,但是在这个特殊的实例里,我想将语言当作推理的媒介,不仅仅是生成描述,而是去推理视觉主题的组成性质。
让我们回到 40 年前,当时 Terry Winograd 创建了一个早期的 AI,叫作 SHRDLU。SHRDLU 是一个“Block World”。人类提出一个问题:“ the blue pyramid is nice. I like blocks which are not red, but I don’t like many thing which supports a pyramid. Do I like the grey box?”,在这个世界里,人类会问出非常复杂的问题,而算法 SHRDLU 需要生成答案:“ No.( Because it supports the pyramid. )”因此这个过程里面涉及到很多的推理。在那个时候,SHRDLU 还是一个局域规则的系统。如今,我们将这种想法用现代的方法重现,在simulation engine(模拟引擎)中使用现代的图片创造另一个数据集——“CLEVR”。
“CLEVR”是一个拥有无限多对象模块的数据集合,我们可能产生不同类型的问题。我们生成了各种各样的问题:一些问题可能是关于attribute(属性)的,比如“有没有哪些大型物体和金属球的数量相同?”;一些问题跟counting(计算)相关,比如“有多少红色的物体?”;一些问题和comparison(比较)相关;还有一些问题与special relationship(特殊关系)相关,等等。
“CLEVR”是一个非常丰富的数据集,由问答集组成,与场景中内容的含义有关。我们如何看待我们的模型呢?与人进行比较。我们发现仅仅使用venilla,CNN,LSTM作为训练模型,人类仍然比机器好得多。当机器的平均性能小于70%时,人类可以达到93%左右的精度。
所以有一个巨大的差距。我认为我们差距的原因在于我们的模型不能明确推理。我们把相关的研究也发表在刚刚结束的2017ICCV大会上。
大致原理是,模型首先提取问题并通过自然语言训练生成器。然后我们利用这个模型进行推理,最后得出这些答案。总的来看,是训练一个生成器模型。然后,训练模型和其预测的答案。最后,联合查找及模型,可以对最后的QA给出合理的结果。我们的模型比执行基线(baseline)好很多。
由于李飞飞在演讲中提到了自然语言处理与视觉识别的结合,也提到了微软研究院沈向洋对于自然语言的描述等研究,因此,我们也将沈向阳的演讲内容整理如下,希望对你有所启发。
沈向洋:自然语言中的描述、对话和隐喻
最近我一直讲的一句话就是“得语言者,得天下”,只有我们切身明白自然语言是怎么回事才能够真正把人工智能讲清楚。
在这里,我侧重三方面内容,主要讲讲如何一步步深入研究自然语言:
第一步,表述方面:通俗来说,就是如何利用自然语言技术表述一个事件。如今关于表述的研究,已经发展得非常好了。
第二步 对话及智能:相对而言,这个比较难一点。对话即智能,这是目前来说非常强调的一点。
第三步 机器意境:相比以上两点,这点比较悬疑,就是说整个机器意识,到底应该如何理解?意境到底是怎么回事?延伸来说,为什么有些人讲的东西你觉得比较有深度?
刚刚提到的三点实际是可以理解为三个层次,正如小学、初中、高中所训练的作文写作一样。
第一层次:小学老师说,你要把一件事情清楚写出来,这就是记叙文。
第二层次:可以总结为正论文。也就是对话层面,简单来说就是要把一个问题讲清楚,论点、论据、论证缺一不可。其实我们大多数的科研论文都是处在这样一个level。
第三层次:当你的文章开始写得有点水平时,老师说可以写诗歌、写散文,写一些表达自己心境、情怀的文章,运用到我们研究的自然语言理解中,也就是机器意境这个层次。
下面,我会通过具体的案例来详细解析这三个层次的研究。
首先,讲一讲如何用机器学习来做自然语言表述。这里我用一个比较特别的例子——降低视觉和自然语言结合,同大家解释一下。
想表述清楚这个问题,就要提一下我们一直以来推出的微软认知服务(Microsoft Cognitive Services),其中有一个很特别的东西,名为Traction ball。就是说,上传一张照片后,它可以直观告诉你,这张照片中到底有什么以及如何描述这张照片。
此后,基于这个技术,我们做了一个应用软件——Saying AI,它可以为盲人服务。
回到照片描述的这个问题上,也就是我刚才提到的Traction ball。这个特殊的技术,最基本的原理就是计算机视觉的API,称为Image Capture。
例如,配上一张照片,一个人游泳的照片,在这张照片中我们能够得到什么样的表述呢?能不能检测到说照片中的人数,人的动作、表情等很多信息?卖个关子,如果大家有兴趣的话,可以到微软的网页上浏览,会有很多技术涉及到这方面。当然我们除了Traction ball之外,还有很多其他的类似的视觉服务,这只是一个很好的具有代表性的例子。
值得一提的是,我们在做Traction的服务时,专门做了一个标准数据集,叫做Microsoft COCO。在COCO的研发中,我们也一直与其他的系统做过可行性的比较。实践表明,过去一年的时间内,我们做Traction是比较出色的,但从数据的角度出发,如今微软研究院做的系统大概是26.8%的准确率,人类目标希望达到63.8%,我们确实还有很长的一段路要走。
如果深入了解的话,Traction的服务除了标准数据集之外,还会涉及图像描述。图像描述主要想解决什么问题?实际上可以定义为计算机视觉和计算机语言交汇的地方。首先要具备一个语意空间,随后就可以将整个图像的空间和特色投影到文字表述,通过字、句、段来呈现。
例如,这是一个网球场,一个人拿着球牌,在机器表述中还有没有表现出来的要素,这些都是我们技术提升的方向。所以语意空间是连接图像和文字的有效工具,于是我们做了一个深度结构语意的模型DSCM,在这方面又有了巨大的空间提升。
谈一谈有关表述的产品发布出去后还会有什么问题呢?
所谓Diploma dreamer research,最重要的一点就是你发布出去之后,用户会在两方面进行辅助,提供更多的用户数据以及提供建议,帮助你意识到这个系统的问题在哪里。早期,更多是用户觉得系统或者是产品如何;现在更多是我们自己讲,我们觉得系统怎样,如果做一个correlation,就会对比清楚明了。
问题一:有一些做的真好,我们说好,用户也说好,这些通常是一些很自然的场景,叫做In natural photo,一些common objects,例如城市的一些雕塑等。
问题二:我们觉得做的不太好,但用户觉得做的好,有一些很自然的场景,就是加上这种类型的照片,一定程度上可是我们的confidence比较低,但用户觉得挺好。相反,有时候我们觉得还行,但是用户觉得不行。
问题三:我们也觉得不行,用户也觉得不行。例如一开始做raiseman分析的时候,一些照片从图像特征分析开始就有问题。
做完这个对比分析后,我们得出了什么重要结论呢?在做大数据的时候,在做这样AI的问题中,大家一定要明白,要分析数据,就是You know want you know、You know want you don't know、You don't know want you know and You don't know want you don't know,所以你要做这样一个分析。
如今,相关产品不断迭代,技术不断更新,模型架构不断趋于精准,那么基于这类技术,落地应用情况又如何?
例如,在我们的办公室软件中,用户数量非常大。例如Power point,今天如果你做PPT的话需要上传一张照片,我就可以告诉你,这张照片大致上可以说用怎样的Image Capture。如果觉得不是很perfect的话,可以建议其中用一些什么样的object,也可以考虑要不要这样去用。此外还有之前提及的SAYING AI,它是专门为是为有挑战的人士(盲人)准备的。
一直以来,我们不断思考人工智能最后的目的是什么?人工智能的目的是打败人类还是帮助人类?对于微软来说,我们觉得人工智能的目的是帮助有需要的人类。在此基础上,我来讲讲对话与智能。
对话就是智能,智能在于对话,你问我,这样表述到底是什么意思?其实回答这个问题之前,应该了解两件事:机器阅读理解其实是从从回答问题到提出问题;问答对话生成是从一问一答到提出问题。
目前深度学习确实在语言智能方面帮助很大,我们现在可以用很多深度学习的方法去完成对语言的深度理解,不仅能够回答问题,还能够提出问题。那么问题来了,怎么去提出问题?读一段书,你要从文本里面找到关键点,然后要围绕这些关键点的话,这就可以生成问题。
最近我在加拿大买了一家做的很不错的AI公司,叫做Mover。主要是在做reading、capture,他们最近发表了一篇论文就解释了如何找到问题并提出。
当然不能光提问题,提问题的意义就是现在还知道答案,答案是three,这是我们现在很努力在做的事情。AI提了一个很有趣 的问题,就是说“How many breakers?或者record?
不仅仅是回答问题以及询问问题,更重要的事情是要具备一个连续对话的系统。现在我们用微软聊天完成小冰的架构,主要就是要做一个对话深层模型,其中包括一个记忆机制。做之前要知道谈话的内容、观点以及主题,做这样一件事情之前,首先要有一个record,接下来要有一个attention,attention这样一个model。
谈到现在的关注点,整个过程中,要对对话整体的情绪和情感做一个建模,对用户的画像,也就是用户要有足够的理解。在这上面,综合用户的上下文和AI的上下文,再加上整个用户当前的输入,你就可以预测接下来应该讲什么。但问题还远没有那么简单,当你有这样一个连续对话,长程对话的时候,应该想到必须要有一个引导机制,不然整个聊天会没有方向。
所以,应该有这样一个focus,要加上一个话题引导机制,同时还要有相关的兴趣话题在里面。所以满足这两个非常重要的方面,就是对话即智能。
相对来讲,我们提出的问题,并不是那种可以给出很多答案的问题。当我们在机器的描述到机器的对话,到底智能体现在哪里呢?仅仅是能够规划,那还不算是真正的智能,真正的智能最应该体现在这个对话中。
以图片举例,图片能够被诠释成Capture,但这些Capture到现在为止仅仅是一个客观描述;也许更加有突破性的事儿,就是一张照片出现之后,不仅仅具备客观描述,更重要的是对它有一个主观评价。甚至说,一张图表示一个意境,可以从这张图片出发做诗,意境到底体现在哪里?什么是天马行空的意境?为什么古人讲只可意会,不可言传,怎么体现出来的?
由此展开对机器意境的一个详细的解释。我觉得我们可以建一个模型,可以讲的很清楚AI到底要解决什么样的问题。到现在为止,通过自然输入,语音也好、语言也好、手写也好、键盘也好,机器把这些自然输入做成机器的representation,在做这样一个深度学习,就出现了一些机器意境的结果。
今天绝大多数人工智能的科研都停留在这一步,机器的结果出现后就结束了,真正有意义的实际上是要继续下一步,也就是反向推理。要把机器的结果,通过反向推理,让人可以理解,让人能够感觉讲的到底是什么。
下面,我来讲讲我们是如何将以上三个层次的技术与理解应用到小冰上。比如说诗歌这件事情,每个人写,每个人读,意境不同,理解可能都很不一样,为什么?
让我们看看小冰的图片评论,例如今天大家用小冰聊天机器人。如果描述的话,一只肿了的脚,这就很了不起,但评论说伤的这么重,疼不疼?这太神奇了,怎么能够知道呢?
图中有两只猫,这也很了不起,很多人都可以做到。但评论说,小眼神太犀利了,真了不起。
第三个,表述比萨斜塔,这能做出来也很了不起,谁知道这是不是比萨,评论说你要不要我帮你扶着?我们需要的就是这个结果。所以一定要在补充最后一步,才可以让人更好的理解机器。
最近微软做了一个非常激动人心的工作,小冰写诗。上线了大概几个月,在微信上,全国的网民(小冰的fans)一共发表了22万首诗,这是个什么概念呢?就是中华人民共和国到现在真正发表的诗歌可能还没有这个数字。
通常大家都觉得,自己的诗写的不够好,还没到到真正刊登的程度,只在自己的微信朋友圈发布就可以了。
小冰是如何作诗的?
首先,通过tool把整个照片的意思搞清楚,这是街道、城市、红绿灯,很繁忙。第一步是先要生成单首诗、一句诗,做法是一个前向的RNN,再加上反向RNN的模型。我们现在正在写这篇论文,应该很快可以发表,到时候大家可以再批评。
一句诗出来后,再加一个基于递归神经网络的一个laid generation approach,例如从这张照片出发,我们可以产生一首诗,大意是城市在他身后缓缓的流动,我的生活忙碌,我们在没人知道的地方寂静,嘴边挂着虚假的笑容。你问我这个人到底讲什么?我说我也不知道这个人到底讲了什么。
我自己觉得,AI最了不起的,就是做人脑的延伸,对于人脑的理解,最重要是有两个方向,一个叫做IQ,一个叫做EQ。小冰写诗就是这个意思。
任何一个科技时代,我们都会去想改变我们的事。当年的PC时代,是操作系统和应用软件;后来的互联网时代,是浏览器加上搜索引擎;后来的移动时代,APP为王;现在AI时代就说到了对IQ、EQ的理解。
我们非常高兴小冰这个产品已经登陆中国、日本、美国、印度、印尼五个国家,目前有上亿用户。我自己非常自豪这个产品从北京做起,走向世界,我觉得其中最重要的一方面就是在人工智能的发展过程中对自然语言的理解。
最后,我还是要强调,接下来的研究方向就是自然语言,就像非常了不起的一首诗所言,“得语言得天下,不要人夸颜色好,只留清晰满乾坤”。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com