智能语音交互方案（如何利用好智能语音这个点）

没心没肺 2022-09-29 04:46:45

智能语音产品的未来会是如何，在产品中怎样正确利用智能语音？

智能语音交互方案（如何利用好智能语音这个点）(1)

问：你觉得智能语音未来会对交互有着怎样的影响，会不会取代 UI 交互吗？

答：智能语音是未来的趋势，我们现在已经开始使用语音交互。

在一次机器人交流会上，我向一位来自优必选的演讲人提了上面的问题，但我并没有得到想要的答案。智能语音的未来会是什么样子，怎么用智能语音做出好的产品呢？我一直在不断地尝试各种产品，不断地思考。

试验

我找到所有涉及智能语音的相关产品，都挨个体验了遍。智能手表，智能音箱，智能机器人。还有手机上的各种助手，像苹果的Siri，Google的 Allo，微软的 Cortanna，助理来也。这些产品有硬件的，也有软件的。终端有 PC，手机，手表。系统平台又有 mac，android，iOS等等。

第一次使用上面的产品并不自然。就像第一次使用触摸屏手机，没有键盘，很不适应，特别是打字。缺少按下去的实体感觉，会让人觉得触摸是个很生硬的操作。还好，手机提供按下震动反馈功能。慢慢适用后，不需要震动也可以的。而相对触摸操作，智能语音是一种更前沿的交互方式。

触摸操作缩短了按键操作交互路径。在手机没有触摸功能之前，想要点击某个按键时，得先把焦点移动到目标位置。有了触摸功能，一个手指头戳过去就行了。那智能语音相较于触摸操作会不会也有同样的意义呢？触摸操作是基于 UI 的，将屏幕作为载体。智能语音则不需要界面，没有边界。

换句话说，智能语音突破 UI 交互的层级，直达目标功能。好比说，以前你去政府机关办个证件，你得按流程路径走，先去 A 部门盖个章，再拿这个章去 B 部门盖个章，等你集完所有章，就可能兑换最后的卡片了。每个部门都得跑，跑错了就办理不下来，不熟悉的人跑下来晕头转向的。现在呢，下个 App，按要求上传几张电子证件，等个几天，证件就办好了。嗯，还包邮。中间，你不用跑一个部门，也不需要知道先跑哪个部门，再跑哪个部门，一个操作就搞定了。语音就类似这样，以前要几个界面点击，现在就是一句话的事儿。

体验

上面是我对智能语音意义的理解。但目前真正在应用阶段，并不理想。这里面有诸多原因，我认为主要是两方面的限制：

语音识别可靠性。16 年 11 月份的时候，科大讯飞开了个发布会，宣称语音识别的准确率达到 97%。而同一时间，百度，搜狗也开了发布会，准确率也达到 97%。这个准确率对于商用的意义有多大呢？我做的有个机器人的项目，机器人可以跟用户聊天对话。机器人语音识别的技术就是采用科大讯飞的。我们在公司测试的时候，搞个简单的一问一答对话都没问题。你问机器人，今天天气怎么样？结果很快就能出来。当我们拿到房地产售楼处，效果不理想，并且跟预期的差距是没有预料到的。

在公司测试的时候，会有杂音，整理环境不算安静，时而有人说话。当时，觉得这种测试环境不算理想，虽然偶尔有错误但也能接受。售楼处环境不一样，因为营销需要，一直有电视播放营销视频。就算没有人说话时，机器人也会识别这些声音。这时候要是有人跟机器人对话，机器人根本无法准备识别说话的内容。人多的时候，售楼大厅里时刻都有人说话，一唤醒机器人，机器人就在那里呜哩哇啦了，说一些莫名奇妙的话。因为它识别出的内容都是乱七八糟的。

当然，你也可能说这是场景的原因。在家时或者车里就没这么糟糕了，这是应用层面的问题。如果语音识别不能在技术上解决可靠性的根本问题，那它的应用领域和范围也大大受限制了。这里面需要解决的问题也很多，多个人同时跟机器人说话时，要区分好不同人说的话。张三说了哪些话，李四说了哪些话？如果有背景噪音，甚至是人说话的噪音，都要能够去掉。

语义理解。如果只是单纯地解决语音识别可靠性问题，也就是听得清的问题，并不能称得上智能语音，智能语音还要解决听得懂的问题。只有听得清，听得懂，才能知道要做什么事情。

你对机器说，我要吃苹果。苹果是什么，它不知道。所以你得告诉它，让它学习，有明白苹果的能力。苹果可以是一种水果，可以是一部电影，还可以是一个品牌。那苹果到底是什么呢？如果你告诉机器，只有代表水果的那个苹果才能被吃。那机器就能准确理解你说话的意思，知道你的意图了。做到这一点，就能让机器明白听得懂你说话的内容。

在语义理解领域，相关技术成熟度是远不如语音识别的。要等到语义理解足够成熟还是需要很长的时间。现在有第三方开放的自然语言理解接口，像 Google 收购的 api.ai、百度的 UNIT。你可以利用它们开放的 API 来让你的产品有一定的理解能力，改善你产品的交互体验。接入的过程就像教一个小朋友不断地学习新的知识，不停地写各种表达式，喂给机器，停不下来。你能积累多大的知识库，就看你能写多少。想写得多，那就堆人力呗。有多少人工就有多少智能，所以人工智能。傅盛讲做小雅智能音箱时说了，像「上一首」、「再来一首」的指令泛化都是靠人工的。

业务落地

Siri 刚出来那会，用户期待很大，媒体说这是乔布斯划的一道光，是未来的趋势。以后想要做什么事情，对着手机讲一声就好了。后面很多公司也出了类似的语音产品：出门问问，虫洞，搜狗语音助手，百度语音助手。大部分产品做了一两年后都停了。现在只剩下大公司在玩了，苹果的 Siri， Google 的 Allo，微软的 Cortana，百度的度秘。

从 2012 年算起，Siri 出来有 5 年多，身边没见有一个人用。前几天，跟一个做智能语音的朋友交流，他问了两个问题。

你觉得 Siri 做得怎么样？怎样做得更好？

Siri 必须要做得更好，12 年出来的产品，到现在，并没有太大的进步。而 Amazon 智能音箱作为后起之秀，却开拓了新的领域。正好有新闻说，Siri 也要换新掌门人了，以前一直都是 Eddy Cue 负责，现在改为 Craig Federighi 负责。苹果肯定也是想将 Siri 与 iOS 和 macOS 做一步融合，突然对 Siri 也有了很大的期待。

Siri 要想做好，先得从入口着手。苹果给了 Siri 快捷入口，但知道的人不多，长按本身就是一个较深的操作。知道的人呢，体验两三次就不用了。与同类产品相比，Siri 在很多方面都需要做改进。

适时的引导。Siri 是新产品，学习新的东西就有成本。不像一般类型的产品，有明确的功能，用户很容易在短时间内建立起产品的认知。用户对 Siri 的理解是，它很厉害，什么都知道。但你稍微问一个偏门的问题，Siri 就傻傻不知道了。要让用户理解智能助手干什么，你需要在合适时间告诉它。

明确的功能界线。Siri 需要给用户划出明确的界线，让用户知道它可以做什么，哪些事情做得比较好，哪些是不擅长的。但不要简单给出提示：「你可以这样问我：xxxx」。

友好的互动。做智能助手，肯定不能一直沉默在后面，不然就沦为工具，只能等到我需要的时候才想起你。而实际上，Siri 没有一个聚焦的功能，用户很少会想得到如何使用它。像Google Now，Cortana 就比 Siri 好得多，这种互动是双向的。即时的互动提醒，根据询问内容给出多种样式回复：有图片，有文字，甚至猜测你的意向来给出相关问题。另外还有待处理事务的卡片式提示。

如果让你来做语音，怎样做好智能这个点？

智能的本质是做好两件事情：预测和建议。

从用户角度来讲，智能就是我做完第1步，你知道我第2步想做什么。而不是说我让你做1件事情，你就按照命令去做这件事，这叫功能。比如说，你对 Siri 说，明天早上 7 点钟叫我起床。Siri 就帮你定好了闹钟，但这没有什么智能可言。

就目前技术，我们不可能做得很智能，预测某支股票是涨还是跌。在一定范围内是可以做一些事情的，已经有些产品做得比较好。你对 Cortana 说到沃尔玛附近的时候，提醒我买牙膏。Cortana 会问你哪个沃尔玛？你说哪个沃尔玛都可以。等你到沃尔玛的时候他就会提醒你买牙膏。Google Now 也是一样，你到了上班的时间没有走，它会提醒你不要迟到了。下班时间到了，它会告诉交通状况怎么样，开车回去需要多长时间。这中间我并不需要标记上班的地点，住的地点。Google 会收集我的轨迹，然后自动标记出来。

上面的的预测和建议都是建立在数据源基础之上。通过收集用户的行为数据来判断你的生活习惯，意图，情绪等。这些数据可以来自：Email，网页浏览历史，日历，位置，短信，其它第三方的App。但不是所有人都愿意把自己的隐私开放出来。

作者：lei，公众号：monster_talks。

本文由 @lei 原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自PEXXELS，基于CC0协议

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

秒懂生活

智能语音交互方案（如何利用好智能语音这个点）

试验

体验

业务落地

猜您喜欢

牌中各花色分别有多少张（上的十二张花色牌画的究竟是谁）

揭秘牌背面暗藏玄机（牌中大有学问）

三边规则（学习理解的）

牌隐藏的秘密（牌上的秘密）

牌真的能从背面看牌吗（每天十条冷知识第44讲）

王子文饰演曲筱绡发型（曲筱绡王子文出道时遇王朔力挺）

孙茜资料素颜生活照（年龄被质疑的9位女星）

热门推荐

排行榜