小米新品发行(小米新一代Kaldi项目获奖啦)

5月26日,2022数博会开幕式上,小米公司“新一代Kaldi”项目,凭借全自研的创新成果和突出的社会价值,荣获“数博会领先科技成果奖·新技术”奖项!

小米新品发行(小米新一代Kaldi项目获奖啦)(1)

中国国际大数据产业博览会(简称数博会),是全球首个以大数据为主题的博览会,自2015年创办以来发展至今,已成为了引领行业发展的国际性盛会。数博会领先科技成果奖是在国家科学技术奖励工作办公室备案,唯一以博览会名义设奖和唯一以大数据为主题的专业奖项,十分具有权威性和含金量。

小米新一代Kaldi究竟为何能获此殊荣?这项技术又会给我们的生活带来哪些改变?接下来我就带大家一起来了解一下~

什么是新一代Kaldi

提起Kaldi,大多数人可能比较陌生,它是当前最流行的开源语音识别工具。对于语音识别的从业者来说,可谓是无人不晓。大量的语音团队都在使用Kaldi引擎来开发智能解决方案,人们所熟知的“小爱同学”“苹果Siri”等语音产品,背后都离不开Kaldi。Kaldi,被认为是业界公认的语音识别框架的基石。

小米新品发行(小米新一代Kaldi项目获奖啦)(2)

而新一代Kaldi项目则是从语音识别开源项目Kaldi发展而来。它同样由 Kaldi 之父——Daniel Povey 领衔研发。Daniel Povey是国际语音识别和AI领域的知名教授,博士毕业于剑桥大学,先后任职 IBM 和微软,曾在约翰斯·霍普金斯大学担任语言和语音处理中心副教授;2019年加入小米,担任小米集团首席语音科学家,组建团队研发了“新一代 Kaldi”。

小米新品发行(小米新一代Kaldi项目获奖啦)(3)

“新一代 Kaldi”研发团队

2021 年 8 月 30 日,新一代Kaldi在语音识别国际顶级会议 Interspeech上发布了第一个正式版本,获得了众多国际知名专家的认可和关注。

新一代Kaldi背后有哪些强大技术?

新一代Kaldi作为完全自主研发的原始创新成果,功能强大的背后,离不开大量的先进技术和创新点,可以简单概括为三个子项目、两项关键技术,四大创新点。

三个子项目:

1.相较于其他一些语音识别库的优势,速度更快,通用性强(可以用来建模多种语音识别算法)的核心算法库k2

(https://github.com/k2-fsa/k2)

2. 更加方便易用,在语音领域使用更为广泛的数据准备工具——通用语音数据处理工具包Lhotse

(https://github.com/lhotse-speech/lhotse)

3. 大大降低整个语音识别过程耦合性,同时也方便网络结构复用的示例脚本集合部分——语音识别完整解决方案Icefall

(https://github.com/k2-fsa/icefall)

小米新品发行(小米新一代Kaldi项目获奖啦)(4)

两项关键技术:

1. 支持GPU的不规则张量,让新一代Kald适用于各种不规则数据的高效运算;

2. 可微分的加权有限状态自动转换器,极大简化了序列建模的任务。

四大创新点:

新一代Kaldi针对“上一代Kaldi神经网络定制难”、“端到端模型研发过程中训练和解码不一致”以及“如何进行端到端模型的高效训练和部署”等问题进行了攻克。其引入的解决方案极具创新性。

1. 运用可微分的加权有限状态自动转换器进行序列建模,极大地扩充了语音识别建模方式的可能性;

2. 实现置信度逐步提升的多级解码方法,让用户可以根据产品对性能和效率的要求选择使用对应层级的解码方式;

3.支持语音识别全流程的GPU加速,进一步降低系统延时

4. 提供端到端语音识别系统的构建范式,极大简化了端到端语音识别系统构建的工作,从技术和规范层面形成更先进的生产力。

新一代 Kaldi正在改变这个世界

新一代 Kaldi 作为开源项目,是一个开箱即用的软件,兼具“易用性”和“实用性”,在科技界和学术界已产生了重要影响,同时也为普通老百姓带来更加美好的语音识别产品体验。

首先新一代 Kaldi的诞生,可以显著降低语音识别技术的研发成本。对于研发人员来说,它可以极大缩短模型更新的周期,使原本需要多人完成的任务,变成只需要几个研发维护人员就可以实现的事情,显著降低了开发和人力成本。

同时,随着如此好用的开源语音识别库——新一代 Kaldi的全面落地,相信整个行业也可以更加高效地构建AI语音系统,帮助“小爱同学”等同类语音产品朝着更为智能的方向发展,为每一个人带来更加美好的语音识别产品体验,大大方便了普通用户和家庭的生活。

小米新品发行(小米新一代Kaldi项目获奖啦)(5)

开源的本质是技术共享。我们将继续努力,坚持以技术为本,不断创新!

未来,我们希望新一代 Kaldi 项目能够惠及全球的开发者、各大中小企业,以及每一位用户,让全球每一个人,都能享受到更完美的智能语音体验!

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页