你被输入法坑过最惨的经历(输入法背后不为人知的事情)

作者:hsy505你被输入法坑过最惨的经历(输入法背后不为人知的事情)(1)

搜狗的云端语料库中已有 2000 万词组,他们将这 40G 的空间压缩到 80M,包含 40 万词汇保存在本地硬盘。为了让词组更好地搭配,他们在客户端中建立一元、二元、三元以及 trigger 模型并实时更新最新词汇,当你计算输入拼音串文字转换成文字的概率,觉得没自信的时候,就可以请求云端的服务,得到更高大上和更准确的结果。

帮用户做出「正确」的选择

搜狗在适应网民的传统习惯,和净化网络上找平衡。例如「骰子」,正确读音为「tou zi」,但大多数网民已经习惯了「shai zi」的叫法,搜狗的办法是,在输入两种读音时能都显示正确词汇,但输入「shai zi」后,还会提示正确读音为「tou zi」。

你被输入法坑过最惨的经历(输入法背后不为人知的事情)(2)

在帮用户抉择时,也会存在一定的主观因素。在火星文开始流行时,搜狗没有将其加入到输入法中,认为不过是个偏门的东西,对中文产生的玷污,宁可损失一部分用户量达到纯净语言的作用,但王小川回过头来在想这似乎没有对错,自己是不是阻碍了历史的发展?或许火星文没有继续流行下去,搜狗也有一定责任。

数据驱动修改键盘模式

搜狗发现使用手机输入法键盘时,每个人理解会不一样。原生全键盘输入法本身字母并非以中线对齐,分界线过小会使得两个点选块比较贴近,容易存在一块,做数据搜集之后我们会做一些改变。把 Andriod 默认的小写键盘改为大写,大写字母更宽,用户不会觉得特别窄,把之前连在一起的字把它分的更开,间距变大。部分 Andriod 开始并不理解,搜狗也受到较大压力。

你被输入法坑过最惨的经历(输入法背后不为人知的事情)(3)

对比之前之后热力的图,用户更加地聚焦。这个改进在 4.0 版本体现,重新统计了点击准确率后,其 86% 提升到 90%。有一些工作靠理念,有一些靠数据驱动,数据驱动实际上需要顶住压力,解决数据与用户间产生的摩擦。

让机器学会识别人名

你被输入法坑过最惨的经历(输入法背后不为人知的事情)(4)

搜狗的人名模式是怎么产生的呢?一个班级里的老师把全班同学的名字都录入进去是很困难的,也不是靠搜索引擎词库能解决的。搜狗通过人人网数据的合作,利用学校人名的抓取,把中国人取名字规范规则给它搜集起来。起名字也能找到它的规律,比如取名王建军,建和军放在一块一定是建设的「建」,而不是健康的「健」。一旦机器让它学会在大量的数据驱动之下比个体更加准确。人名模式上线后,第一要识别人名,第二个把规律组织起来,达到 80% 的正确效率,13 亿人名里面第一次有 10 亿人名字可打出来。

翻页和纠错的设计

传统找词模式需要点击大于号翻页,但是常常翻好几页找不着,看漏了,又回翻。搜狗现在新设计采用平铺式,使一屏可以看到更多的内容,减少你回转的状态。

你被输入法坑过最惨的经历(输入法背后不为人知的事情)(5)

我们看到用户按的最多的键是空格键。退格键(back space)排在第二。一旦样本级的用户群按退格键,搜狗则认为自己没有处理好用户的需求。后来纠错的能力,其实本身有两种做法,一种做法是默默地帮你纠正,也不告诉你打错了。一种做法是帮你打出来了,并提示争取词组。王小川选择了第二种,在证明自己能力的同时还是要刷存在感的。

你被输入法坑过最惨的经历(输入法背后不为人知的事情)(6)

除了以上种种创新,在新版本里可以输入表情,语音输入,当你输入上半句的时候,它会帮你想下半句,有的沿用古诗词,有的是涉及文化创作,帮你写对联。

作为输入法总结,王小川认为,公司需要做大的需求,在主路径上创新,思考为什么是你来解决这个问题,深刻理解用户,但不要盲从,打破常规的思考,数据敏感,看似主观的问题也有数据说明,快速低成本试错。

极客观察均为极客公园原创报道,转载请注明原文链接。

原文地址:http://www.geekpark.net/read/view/206471

关注极客公园,即时获得最新内容:Twitter|极客公园|新浪微博|花瓣网|人人小站|Google |点点

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页