语音输入最准的方法(语音输入谁最准)

在周一的时候,我们不是做了个「微信发语音会不会转文字再发」的小调查嘛,在参与投票的小伙伴中,有近 80% 的人选择了会转文字再发。

这个答案不算出人意料,但让我觉得有趣的是,评论区里出现了很多安利「讯飞输入法」的小伙伴。

语音输入最准的方法(语音输入谁最准)(1)

这让我想起了 4 年前我们做过的一个关于手机输入法语音输入准确率的评测,最后脱颖而出的恰恰就是「讯飞输入法」。

语音输入最准的方法(语音输入谁最准)(2)

时隔 4 年,你说各个厂家的语音识别率准确度有没有发生什么变呢?虽化然各家输入法的语音识别都搭配有联系上下文 AI 自动纠错的辅助功能,但没关系的,我们照样可以不问 UI 逼格高不高,不看使用方不方便,只拿最终的识别结果说事。

那么,让我们一起来看看,市面上的主流输入法,在 4 年后的今天,谁才是语音输入的最佳选择。

PS:这会是一篇超级长文,赶时间的小伙伴可以直接扒拉到最后看结果,但你可能会测过一个有趣的过程。

评测准备

既然是主流输入法的评测,那当然要找到谁才是当今主流,所以我先是去找了几篇关于第三方手机输入法的行业报告,无一例外,第一梯队还是搜狗、百度、讯飞这三家大厂。

语音输入最准的方法(语音输入谁最准)(3)

不过今天参与评测的主角,除了第一梯队的三家输入法外,还有国民级应用微信上的语音输入,以及 iPhone 上的听写功能。

这里容我稍微解释一下,带上微信,我想应该没人反对,无论是月活还是用户总量,都是其他输入法无法匹敌的,而它自带的那个语音输入功能,也是最贴近生活,使用最多的语音输入姿势了。

至于 iPhone,则是之前有小伙伴专门提过它好用,所以这里也把它拉过来溜上一溜。

1.参评软件版本号

讯飞输入法:安卓端 V11.1.12

搜狗输入法:安卓端 V11.10

百度输入法:安卓端 V11.4.5.40

安卓端 V8.028

iPhone:iOS 16.0

2.校对软件

Office Word 校对 人工统计

我本来也想找一个可以自动校对两端文字变化的工具,但挑来挑去还是选择了 Word 里的审核比较。

但这真不是我贪图 Word 里的修订统计,因为在实际对比的过程中,我发现 Word 比较出来的修订统计,皆是以词语或句子为单位的,并不能做到十分精确。

语音输入最准的方法(语音输入谁最准)(4)

而且更关键的是,这样的修订统计与我测试的初衷不符,我想得到的最终结果,是以我在语音输入后,需要手动编辑修改的次数最少为核心,这是今天评测的唯一标准,也符合实际应用场景的使用逻辑,简单点说,改得越少,识别最准。

所以这里我选择了搭配人工统计,每个错误的字符、每个有问题的标点,都是我一个一个数出来的,单是统计的这一步骤,就花了我一整天的时间。

语音输入最准的方法(语音输入谁最准)(5)

可不是我磨洋工啊,主要是和我设计出来的评测方案有关。。。

3.评测思路

在实验中,为了确保原始音频文件一致,输入的语音都是提前录好同一段语音素材,除 iPhone 自带的听写外,在同一个手机上使用不用输入法进行实验,尽可能降低误差率。

这里的「尽可能」,包括不限于让两部手机处在同一网络环境下;播放音频的手机固定且音量固定;两个部手机的位置不发生变化等等。

但实际过程中,哪怕外在条件都一致,多次测试仍会得出不同的识别结果,从统计学意义上说,为了降低误差,保证测试结果的稳定性,应该多次测试然后取平均值再参与对比。

事实上,我也是这么干的,一个输入法要完整连续识别每个音频 3 次才算过关,某种意义上说,这次准确率的测试,其实也兼顾了语音识别的稳定性。

同时呢,在实验测试结果中,我还对错误特征进行了分类,比如文字字符错误、标点错误、数字错误、英文单词大小写错误等等。

之所以进行分类,是为了更加准确地体现出识别的准确率。如文字错误、单词错误属于识别错误,已经影响了阅读与理解,后期还要删掉修改,所以这些字符错误的系数定为 1。

如果是标点符号这类错误,不影响阅读与理解,但仍需要后期校对修改,这些标点错误的系数定为 0.5。

如果是英文大小写错误和未空格错误等其他错误,属于识别正确拼写错误的范畴,所以把这些统一归为其他错误,其他系数定为 0.2。

系数之所以这样标定,究其原因还是不同错误对阅读、理解、修改的影响不同,所以只有在统一的标准下,才能真正横测出赢家。

那么准确率的计算方法我们也有了:(总字符数-错误数×对应系数)/总字符数,且这样连续计算三次后再取均值得到最终准确率。

至此,我们的前期准备工作才算搞定,至于参与评测主角表现如何,一起来看看结果。

普通话极致水平

既然是语音输入的评测,那对测试音频肯定也有要求啊,为了尽可能降低误差,我决定找一个普通话最标准的人来测。

是谁?嗯,新闻联播的播音员没跑了,所以第一项测试,我们就用新闻联播的截取片段作为测试样本。

这里我选的是 10 月 21 日新闻联播第 28 分 50 秒的《我国数字经济实现跨越式发展》的片段,共 218 个字符。

语音输入最准的方法(语音输入谁最准)(6)

因为每个输入法都测了 3 次,所以我这里就不一一向大家展示识别结果了,5 个测试对象,带上原文本,一共 16 个 Word 文档。

语音输入最准的方法(语音输入谁最准)(7)

把统计来的数据录入表格,综合结果如下。

结果分析:

在字正腔圆的播音员面前,搜狗输入法表现最好,问题都是些无伤大雅的标点符号,而且对于数据的播报,搜狗输入法的数字规范书写显得非常准确。

语音输入最准的方法(语音输入谁最准)(8)

不信你看看差生 iPhone 自带输入法的听写功能,数字书写乱得那是一塌糊涂。

语音输入最准的方法(语音输入谁最准)(9)

讯飞和微信的表现和搜狗非常接近,至于最后为什么会败下阵来,仔细对比后,我发现还是数字识别后的规范出了问题,且多了一个错别字。

语音输入最准的方法(语音输入谁最准)(10)

剩下的百度,则输在了字符错误上,只能说在字正腔圆面前,搜狗输入法拿捏住了细节。

在普通话极致水平的测试中,准确率排名为:搜狗输入法 > 微信输入法 > 讯飞输入 > 百度输入法 > iPhone 听写

普通话一般水平

虽然在播音员面前搜狗表现很好,但真说贴合日常生活,还得是咱们一般人的说话标准,正好,以我普通话二级甲等的水平,不算好也不算差,算个中游水平吧,所以我就亲自上阵,选了几段以前文章里的片段,口播试试输入法们的深浅。

当然,因为这段的测试最有用,所以我这里选择了并非只准备了一个音频,而是一口气测了三个音频。

这是第一次的测试结果:

语音输入最准的方法(语音输入谁最准)(11)

第二次的测试结果:

语音输入最准的方法(语音输入谁最准)(12)

第三次的测试结果:

语音输入最准的方法(语音输入谁最准)(13)

结果分析:

出乎意料的是,在第一项测试中字符错误表现最好的搜狗和讯飞输入法,被微信弯道超车,为啥会发生这样的情况?

答案是,微信虽然在数字书写细节方面略有不足,但丢字、错字表现最好,反观搜狗和讯飞,连这个「128M」都能识别出来,但总是丢三落四的。

语音输入最准的方法(语音输入谁最准)(14)

而标点符号的断句方面,搜狗、讯飞难分伯仲,微信一如既往的稳定,也是它能脱颖而出的原因之一。

至于百度,表现一如既往的不佳,要不是 iPhone 听写兜底,市场占有量颇高的百度就尴尬了。

说到 iPhone 听写,我的感觉是,它重新给我编了故事。。。

语音输入最准的方法(语音输入谁最准)(15)

在普通话一般水平识别中,准确率排名为:微信输入 > 讯飞输入法 > 搜狗输入 > 百度输入法 > iPhone 听写

中英文混合输入

中英文混合输入虽然在日常使用中适用的场景较少,但交流中一旦搞不定夹在内的英文单词,那就尴尬了,像我这样的科技号在日常写作中有时候会出现大量夹杂英文单词的状况,所以也把这个加入到本次评测中。

选用的文本,选自苹果官网关于 Apple Music 的介绍,录入数据后,表格如下:

语音输入最准的方法(语音输入谁最准)(16)

结果分析:

在这一项测试中,识别正确率能到 90% 以上的,只有微信和讯飞,所以这里的分析重点也放到它们俩身上。

这是微信表现最好的一次识别:

语音输入最准的方法(语音输入谁最准)(17)

这是讯飞表现最好的一次识别:

语音输入最准的方法(语音输入谁最准)(18)

单说英文单词的识别和书写规范,其实讯飞反而比微信还强,该大写的大写,该空格的空格,像「Sonos」这个词,讯飞识别了出来,反而微信没有识别。

但从准确率上说,微信比讯飞要高上那么一点点,仔细对比后,我发生是微信是赢在了汉字识别率更准确上。

至于苹果的听写,只要我发音到位,单词识别的很 Nice,但就这中文,实在难尽人意。

语音输入最准的方法(语音输入谁最准)(19)

搜狗表现中规中矩,必须要说的是百度,因为音频中关于「iPhone、iPad、Apple Watch」那句念的很快,所以总会在那个地方卡顿。

我前后识别了 8、9 次,才有了完整的 3 次识别结果,但效果差了很多。

所以在中英文场景中,准确率排名为:微信输入 > 讯飞输入法 > 搜狗输入法 > 百度输入法 > iPhone 听写

方言

正儿八经的测试其实到上面就结束了,但在测试时,我发现和 4 年前不一样的是,现在的那三家主流输入法,都开始支持方言识别了,我还看到了「河南话」的选项。

这让我来了兴趣,因为之前在外地上学工作,所以我怕我说得不够地道,专门从网上找了段地道的河南话。

挨个把搜狗、百度、讯飞输入法调成河南话后,测了一波,至于没有「河南话」专项的微信和 iPhone 听写,则是硬上,表格如下:

语音输入最准的方法(语音输入谁最准)(20)

结果分析:

没想到,这次是真的没想到,开启「河南话」识别的三家第一梯队的输入法,竟然还没有微信硬上好用。

倒是 iPhone 听写不出意料的翻车,一共也就 265 字,iPhone 听写愣是错了 170 多个字,看来本就语文不合格的 iPhone 听写,在河南话面前真的是一点面子都没有了。。。

语音输入最准的方法(语音输入谁最准)(21)

至于那三家第一梯队的输入法,也是矮个里挑高个,百度输入法跑到了前头,和搜狗一起成功及格。

在河南话方言的测试下,具体排名为:微信输入 > 百度输入法 > 搜狗输入法 > 讯飞输入法 > iPhone 听写

AI 合成音

既然连河南话都测了,我又想到了「注意看,这个男人叫小帅」的 AI 合成音,套娃嘛,要的就是节目效果。

所以我用微软 Azure 的云希专门生成了这么一段话:

语音输入最准的方法(语音输入谁最准)(22)

测试后,表格如下。

语音输入最准的方法(语音输入谁最准)(23)

结果分析:

AI 合成音嘛,不像正常说话那样带有停顿或者不标准的发音习惯,所以整体结果和普通话极致水平是接近的。

可以看到搜狗和讯飞的表现,无论是错字、漏字,还是标点符号都差不了多少,微信则一如既往的稳定。

AI 合成音的语音识别中,准确率排名如下:微信输入 > 讯飞输入法 > 搜狗输入法 > 百度输入法 > iPhone 听写

结语

在分项做完对比后,我又做了个最终的表格,即将上面 5 项测试结果的准确率相加求平均值,最终统计结果如下:

语音输入最准的方法(语音输入谁最准)(24)

换言之,今天这 5 个支持语音输入的工具排名为:微信输入 > 搜狗输入法 > 讯飞输入法 > 百度输入法 > iPhone 听写

其实评判语音输入法的方法标准并不唯一,前面也说了,我这次得出来的结果,为的就是得到一个需要修改调整字符最少的方案。

单从这一点出发,赢家毫无疑问是微信自带的语音输入功能,讯飞和搜狗之间的差距很小,最让我失望的,毫无疑问,还是市场占有率远比讯飞还高的百度输入法了。

语音输入最准的方法(语音输入谁最准)(25)

图源艾媒网

你瞅瞅这个月活对比图,最高的但是在语音输入这里反而表现最差,让人实在没想到,果然是货比货得扔啊。

这篇文章我花了近 3 天时间才完成,完全是用写论文的态度完成这次评测的,以前向大家安利软件的时候,说什么什么好,什么什么不好,其实抛开对比来说谁更好用,都有点耍流氓。

这次不耍流氓了,给大家整点干的,这也是我写这篇评测的初心。

如果你觉得今天这篇评测有用,请大胆点个赞,你的支持就是我坚持的动力,希望这篇有用,也值得。

本文首发于微信公众号网罗灯下黑(wldxh8),未经授权请勿转载!

一如既往感谢各位小伙伴的支持和关注!

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页