人工智能自动语音识别(语音识别能否颠覆人工转录甚至翻译行业)
上个月美国著名科技杂志《连线》上刊登了Jesse的那篇《Why Our Crazy-Smart AI Still Sucks at Transcribing Speech?》,说句实话,一看到这个标题,笔者的目光就没再挪开。
我们都知道有这样一种职业叫速记速录师!会议现场,嘉宾访谈网上直播,庭审现场,询问笔录现场,新闻采访现场,影视字幕文字制作,电话同声实时记录,远程在线同步记录等等,都离不开他们的身影!他们的工作就是实时采集语音信息,同步生成电子文本提供给大家。一个人正常讲话的语速为每分钟160至180个汉字左右,而一个速记速录员的速度可以达到每分钟220-300字,而且其准确率不低于98%。一个高级速记速录师的功力就更深厚,每分钟可达684字。提供如此优质服务,势必也拥有不菲的价格,声音资料整理每小时的收费价格400至600元,现场会议大屏幕投影的实时转录,大概是每小时800元的价格。
其实,对于这种自然的应用场景,通过语音识别技术来解决是再好不过的选择了,我们人类完全可以从这种繁杂的简单脑力劳动中解放出来。那么语音识别技术现在能否做到这一点呢?
微软高级科学家,从事语音识别技术已有30余年的黄学东专家说“10年前,语音识别的错误率高达80%!如今,我们将错误率从80%之高降到了仅有8%!如果我们在未来两三年内一直保持这种态势,奇迹一定会发生”。这也就表明,在原有的声学模型的基础上,加上大数据的助力,以及近年来人工智能的发展,语音识别方面已经取得了质变的结果。
今天,对于中文的语音识别,市面上从事语音识别业务的公司基本上都可以做到准确率在90%以上。也就是说,我们拿着麦克风来讲话,普通话标准的情况下,语音识别的基本上完全可以识别我们在讲什么,而且,识别错误的概率已经很低了。目前,许多音视频字幕的制作,小型发布会的现场记录等,语音识别技术完全可以应用,并真正的产生价值。然而,所有的这些应用,都是有一定的错误冗余度的,而我们愿意接受使用这种程度的语音识别技术的前提是,我们可以容忍一定错误的存在。一个小型发布会的现场上,主持人字正腔圆,语音识别率可以达到98%以上;当嘉宾开始讲话时,由于方言、口音、平翘舌有误、语音重叠、含混不清、新词汇的出现,语音识别就会出现问题;当嘉宾开始使用复杂的逻辑思辨能力,科学深奥的复杂长句、跳脱的方式进行论证时,没有对语义的推测,语音识别的准确率也立刻下降。所以,发布会上,还是需要配备工作人员实时的进行检查、纠错和校正。也就是说语音识别技术还达不到人类的标准,还是需要人工转录员的校对。当然,这里我们还仅仅指的的是固定的普通话人群和近场环境,其他情况结果更堪忧。
很多人都有疑问,从去年开始,人工智能得到了前所未有的关注,从马斯克、霍金等大佬对人工智能的大胆预测,到《超能陆战队》、《钢铁侠》、《机械姬》、《美国队长》等电影中出现的强人工智能角色,再到举世瞩目的人机围棋大战,以及微软、谷歌、Facebook等科技巨头在人工智能领域发布其傲人的研究成果,可以说人工智能承载了我们许多期望和想象。
然而,当人工智能真正回归产业、产品和用户需求时,我们除了那些科幻式的畅想和预测,还需要理解,基于现有的研究进展,人工智能到底可以给我们带来什么真正有价值的东西,如何帮助我们解决哪些切实需求?当然,当深度神经网络的大的训练平台出来,已经为我们的语音识别带来了质的飞跃,然而想从90%飞跃到99%,却还是需要很长的路要走。那我们该向哪个方向走?
1
自然语言理解
第一个方向需要攻克的就是自然语言理解。科大讯飞董事长刘庆峰曾把人工智能分成三大阶段。第一个阶段是计算智能,就是计算能力越来越强,当年计算机击败国际象棋大师就是一体现。第二个阶段是感知智能,目前很多方面机器已经超越了人类,比如说在视觉上可以捕捉到红外线,听觉上可以获取超声波、次声波。第三个阶段就是认知智能,就是有学习和推理能力,自然语义理解就属于第三个阶段。我们人类可以从综合信息中进行推测,比如说话者的表情、手势、体态、语气中推测语义,而机器现在还做不到这一点。而且,我们人类不是机器人,自然的口语对话中,不能像小学生朗读语文课本一样,我们会犹豫,会修正,会重复,会用到联词,消字,吞音,英文缩写,甚至数学符号等来表达我说话的内容,也就是说会达到根本不按自然语言规律来的程度,如何从上下文语境中推理感知理解自然语言语义,才是识别率提升最后真正的门槛。
2
远场识别与噪音
第二个需要攻克的方向就是远场识别与噪音。参与美国国家标准与技术研究所(NIST)测试的非营利性组织ICSI的一个分类项目负责人杰拉德·弗里德兰曾解释说“在相对清晰的电话线上,98%的时间里语音识别技术能识别出说话者的语音。然而,一旦麦克风不再是手机提供的那种近距离类型,语音识别错误率就会激增到15%到100%之间”。这是什么意思?就是说一旦到了远场语音环境或者噪声比较大,采集到语音的信噪比低的环境中,由于干扰噪声,鸡尾酒会效应等,语音识别都会失效。举个例子,当我们开车行驶在高速公路上,汽车领域的噪音环境中,国际上最优秀的语音识别系统的识别率也只有86.9%,其第二名的识别率也只有74%。这就是说在车载噪音环境中,全球最顶尖的技术其识别率还没有到90%,而且这个技术领域的整体水平都薄弱,不仅如此还参差不齐。
2
特定群体的语音识别
第三个,就是特定群体的语音识别。方言姑且不讲,笔者想说的是常常会引发语音识别混乱导致识别失败的两类语音产生者——老人与儿童。他们的语音语料库的建设,语音识别的特点,语音声学特征以及影响语音识别的因素,都应该是深耕的领域与方向。
作为声学垂直媒体工作者,语音识别行业是笔者最为关注的一个领域,全球智能语音行业在大数据、移动互联网、云计算等技术的发展推动下,已进入快速应用阶段。2014年,全球智能语音市场规模达47.5亿美元,而2015年高达62.1亿美元,同比增长30.7%。今年5月4日Research and Markets发布的《全球及中国语音产业报告,2015-2020》中显示:随着语音在智能产业的应用不断加深,全球以及中国的语音市场在接下来的5年当中仍将维持显著地增长,全球语音市场规模预计2020年将达到191.7亿美元。可以说,语音市场绝对是一个充满巨大潜力的市场。而如今,历史上从来没有像今天一样对人工智能领域,有着如此多的狂热和讨论。自1956年美国达特茅斯会议首次提出人工智能概念以来,人类对人工智能技术的孜孜追求已经整整60年。让机器具备像人类一样的智慧,是人类最伟大的梦想之一,相信人工智能推动语音识别领域的未来会别有一番天地。
小编诚意推荐
声学在线:知识,趣味,圈子
微信平台:公众号搜索“声学在线”
网站平台:soundonline
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com