ai识别图像内容（AI产品分析四）

夜吼大风歌 2022-11-13 15:08:19

前三期AI产品分析中，我们选择抖音、美图、作业帮等比较大众且相对成熟的产品作为切入点，结合实际功能及技术分析了人工智能技术的落地，而本期我们选择了形色这款相对小众化的产品，从一个新的应用场景，感受人工智能产品对人类日常生活带来的影响。

1. 关于形色

形色是由杭州大拿科技研发的一款拍照识花软件，依托于人工智能下的深度学习技术，可快速地对植物花草的特征进行分析，并以较高的准确率输出花草所属的类别。

虽然相较于抖音、美图等产品，形色趋于小众，然而该软件自上线以来，仍然获得了许多用户的认可。

根据七麦数据，形色近三个月下载量呈现出不断上升的趋势，尤其是进入四月份以来，日下载量增加更加明显。这说明，形色保持了稳定的用户增长。

根据易观千帆指数，形色的月活也具有出色的表现。如图，形色近6个月月活显示，数据上虽有较小波动，但在2月份达到最低点也仍具有将近90万的月活，且此后开始展现出良好的回升趋势。这说明，形色拥有稳定的用户使用量。

而无论是用户增长量还是用户的使用量，都是对一个产品的可持续发展至关重要的指标，形色在这一点上表现优异。

此外，从整体的页面上，形色调性淡雅、配色清新、交互简单流畅，且用户反映识别准确率高。而除拍照识别花草植物的功能，形色还提供了类似于花间、地图、展览及鉴定等功能，使得具有相同爱好的用户围绕着花草可以发生互动，使得平台在花草之余平添了许多人气。

基于此，形色在同类产品，比如微软识花、花帮主中脱颖而出。同时，根据前期的调研结果显示，形色充分利用了人工智能技术的优势，随着用户数据越来越多，其准确率也越来越好，在用户间具有良好的口碑。

为了更好地凸显AI技术在产品中的落地，我们仅以“拍照识别花草”功能项作为出发点，对其进行用户-场景-需求、功能目的、功能逻辑、用户评论及技术分析，并在此之外，对平台中围绕“拍照识花草”衍生出的“拍照识果蔬”进行简介。
2. 用户-场景-需求分析

3. 功能目的

从“拍照识别花草功能”出发，形色满足了许多用户的许多需求。

不同于抖音、美图或作业帮，它们都比较显性地满足了仅仅部分人群的需求，而形色则具有更广的受众，应用的场景也很丰富。比如：对一些植物爱好者，形色可以满足他们在遇到新植物类别时快速识别的需求，甚至是一些罕见的花草也可以更为准确地识别，形色还提供了互动和分享的渠道，使得用户可以在满足自身乐趣的同时还有益于兴趣的交流，达到用户聚合的效果。

而对于一些园林花艺从业者，形色在他们的工作中充当了效率提升器。由于这类人群经常要在设计、搭配中对植物的类别进行识别与鉴定，而人的脑容量又十分有限，如果依靠传统的文字搜索，则耗时耗力，形色使得这类人群可以快速地确定相关植物的类别及形态知识。

最后，对于一些类似家长、教师、摄影爱好者、旅游爱好者、小朋友等，形色也都帮助他们快速认识花草、答疑解惑、学习植物知识、获得好看或珍稀植物照片提供了更丰富、高效的渠道。

由此，可以看出，形色面向的用户群广，使用的场景丰富，而满足的需求却集中体现在快速识别花草、学习植物知识及鉴定植物等方面。

对于平台而言，借助人工智能技术，为用户提供高准确率且快速地植物识别的服务体验，通过植物将用户聚集，并由此拓展功能外延，一方面平台的算法越来越准确，吸引的用户越来越多，另一方面围绕着植物识别这一核心需求，通过更丰富的功能设计，比如花间、地图等，产品可带给用户更多惊喜。

而形色的官方团队也在新闻发言中坦言，他们是纯粹的人工智能技术爱好者，希望通过产品作为载体，把人工智能的乐趣带给更多用户。

这句话是不是空喊口号无从得知，但从目前的体验过程中，形色暂时没有特别显性的广告植入，而平台算法的性能也比较稳定和准确。
4. 功能逻辑

在功能逻辑的设计上，和一般的“拍照识别”类产品一样，形色的流程设计也比较灵活，比如识别图片来源提供了多种选项，同时比较特别地是提出了“自拍，看看你像什么花”选项，该功能抓住了用户爱美及好奇的心理，是一种比较具有趣味性的互动。

同时在生成的过程中，由于对图片处理的过程可能算法存在一定的延时，尤其是一些比较少见的植物，计算图片特征及检索数据库的过程需要花费较长的时间，可能会出现更长的等待时间。

针对上述算法延时的问题，形色的处理是比较注重用户心理感受的。比如：在体验中发现在等待时，系统会反馈各类提示语包括“正在努力鉴定中XX%”，让用户心理有预期，减少焦虑。

再比如：“再等等，结果马上就出来”、“网络好像有点拥挤”，即便进度没有变化，但这些提示语仍处于动态变化中，在这些极具拟人化特征的提示语之上，用户不会觉得背后是一个冷漠、机械的“机器人”或算法，而是觉得这是一种友好的互动，从而耐心及忍耐度会有所提升。

上图是体验的一个过程，是拍摄的路边的一种野花。从中可见，拍照鉴定的过程中，一直显示在缓冲，但是体验相对比较好的是，系统一直有反馈，比如进度94%、99%，而且一直把延时的锅扣给“网络慢”、“网络拥塞”。

其实这种提示语的设置是人工智能产品设计的一个技巧，因为常规而言，如果算法想要达到比较好的准确率，则模型的复杂度会比较高，那么模型在运行的时候其效率往往较低，则平台通过这些标语一方面可以转移用户的注意力，另一方面，也可以一定程度降低用户对算法不行的糟糕想法。

这种设计的技巧的应用比较普遍，比如：还有一些使用识别分割技术的图像类产品，有的时候算法处理的结果在边界处表现不好，则可以通过在边缘处增加装饰物或是其它比较酷炫的变换效果，从而缓解算法本身结果的不足。

本次体验最终识别准确结果是鬼针草，如果你觉得该识别结果不准确，还可以再请求高手鉴定。

提供高手鉴定的好处在于：

一方面通过用户使用高手鉴定的点击率，可以用于对后台识别算法准确率的反馈，重新调节模型的参数，所以用户会感觉到在不断地使用产品的过程中，识别的准确率会越来越好。因为当前深度学习的准确率增长，一定程度上是依托于训练数据的增加，所以人工智能类的产品，用户数据的后期收集与优化十分重要，从产品的体验和调研中也发现，形色是比较注重这一点的。

另一方面，现有的AI产品设计中，如果仅仅依赖算法可能无法满足用户的所有需求，尤其是一些比较特殊的场景，还是没有办法满足用户任何情境下满意的要求。因而目前最为常用的方法是算法人工。

比如抖音后台的鉴黄，只是应对大数据去除那些特别特征较为明显的，而剩下的比较容易歧义的，还是需要一定的人工进行辅助判断，减少误判率。即便如此，从整体上看，也大大地减少了人力、物力的损耗。

所以，形色的高手鉴定中，一方面是发布到平台上，一些同样爱好植物或者刚好认识的用户会帮助解答，同时平台也吸引了一些相关的专家入驻，以提升鉴定的效率和专业度。

同时我们还做了更大量的体验，从中可见整体的识别准确率较高，且每一次识别之后，都附带了比较诗情画意的解说，和平台整体的调性以及调研中发现的用户的需求是比较吻合的。

最后一幅图，为了恶搞一下算法，我特意选取了杯子上的任意一个绿色部分，最后平台返回的结果是“我竟然被难倒了”，所以，这一刻可能会觉得哪怕错了也挺可爱。

当然了，形色也有失灵的时候。

比如输入一株火龙果图片，它给出的第一答案选项是火龙果，后面还给出一个选项是昙花，火龙果是准确答案，但是观察会发现，它和昙花的表面形态确实有些相像。

造成该类错误的问题在于，模型是基于植物的特征提取，和后台数据库形成比对，只要表面特征相似可能就会判定为同一类别。且算法的灵活度有限，对于一些相似物种，仍没有办法对细节做出准确区分，这是未来算法设计需要攻克的难题。

其次，我拍摄了钥匙的图片，算法识别结果为辣椒。因为人工智能一定程度上是基于过往的经验，对眼前的新事物结合其特征做出判断。也就是说，算法觉得自己应当在现有植物品类库里找一个最匹配的来表征输入的图片，大部分算法还是比较“单纯”的。
5. 用户评论

同样地，我们对产品搜集了对应的用户评论。

首先，基于七麦数据显示，形色的用户评分当前显示评分为4.9分，所有版本评分也达到4.9分，基本所有的评论集中在5星、4星，而低分评论占比极低。

同样地，收集了30条用户评论。但是本次评论的筛选中，没有刻意地集中在差评，而是对用户的评论进行了整体评估，并提取其对应关键词，最后进行归类分析。

首先用户评论的关键词主要包括“内容质量需加强”、“效率提升”、“增加知识”、“准确率不高”、“准确率高”。

其中36.7%的用户觉得使用形色增加了植物相关的知识，对于学习及日常装逼有益，20%用户觉得形色对每种植物、花草判断都十分准确，非常智能，16.7%的用户认为形色的内容质量需要加强。

比如：关于识别结果的解说可以更为详细一些、平台上关于植物的科普文章要更加专业一些等，13.3%的用户觉得通过形色极大地提升了学习花草植物知识的效率，他们中有的人是园林或花艺设计师。最后还有13.3%的用户认为识别的准确率不够优秀，可能是恰好他们问到了“算法”没学过的部分。

进一步地，我们把用户的评论最终归结为产品、算法及运营维度。

其中，如效率提升、增加知识属于产品范畴，正是由于产品能够看到用户的需求，并从用户的角度出发，巧妙地利用人工智能技术，得以为用户解决需求。这是用户对形色的赞同，也是对它未来发展的期许，希望它一直记得初衷，服务用户，不断进步。

而准确率问题则属于算法范畴，而由于平台的训练数据，后续的经验积累、调参优化，都对最终平台的识别准确率有影响。形色官方技术团队曾对外发言称，其起步的训练数据集就很庞大，而且后续也很注重收集用户的反馈，进行模型准确率的调整，以后也还会继续加强数据集及算法的调整和优化，则算“盲区”会越来越少，从而整体的准确率会进一步提升。

最后，内容问题则属于运营范畴。之前看了一篇文章说到，互联网产品的发展，从技术主导到产品主导，已经开始萌生出运营主导的趋势，无论该论断正确与否，都不可忽略的是，运营是一款产品能否触达大众、焕发生命力的关键。而遗憾的是，形色的运营比较单调，这是相对不足的一个点。
6. 技术分析

形色的实现，其技术原理比较简单，主要就是图像识别及检索，即通过图片特征的提取，而后进行搜索匹配，最终输出结果。形色之所有获得比较好的准确率，主要在于它十分专注地打磨，把上述的每一个技术环节都做到了最好。

首先，训练数据集牛逼。有多少数据，就有多少智能，尤其是对现阶段的深度学习模型而言，训练数据的数量和质量可视作是决定性因素，这也是为什么很多人工智能产品经理都在工作中或多或少地需要承担数据标注、清溪任务的原因。在上线前期，形色团队就意识到数据对于模型准确率的重要性，因此他们在训练数据集的打造上花费了很多时间。

比如通过向各大论坛植物爱好者征集花草图片数据，同时自身团队出动，到当地进行常见花卉采集之后请专家鉴定等，在保证了训练数据集的数量之余才展开了后续的工作。

对于深度学习而言，由于深度网络的复杂性，需要训练的参数规模庞大，甚至可以达到好几百万个，所以要想算法落地成产品后能获得实际可用的结果，其训练数据集的需求量远远超出一般人的想象。

而当数据量不断增加后，数据的清洗和标注又是另外一个更为复杂问题，形色团队在这方面上也是斥巨资，他们聘请很多具有专业知识的专家反复校验，确保了训练数据集的质量。

通过数据集上的努力，形色最初的模型比较简单，获得的准确率接近50%，这让团队看到了希望。

人工智能是仿生的，和人一样，如果见得少，则判断出错的概率就大。所以为了减少算法识别错误的概率，需要让模型尽可能学习更多的数据，形色采取了一个长远更为有效的措施是：在产品上线之后，进一步收集用户上传的图片，用于算法的迭代训练。

结果显示，随着用户数量增加，平台训练数据集扩增，识别的准确率也越来越高。

其次，算法人工辅助的双重技术保证。

形色是一款优秀的人工智能类产品，它在为用户解决的过程中，传达出一种十分谦逊、负责的态度。

具体地，在实现的过程中，除了以深度卷积神经网络对图片进行分类并检索的识别算法外，为了应对算法失灵的情况，形色还配备了专业的人士进行人工鉴定及解答。

最后，技术细节的处理。形色在提取照片之后，考虑到用户拍摄的图片可能存在模糊、关键特征不明显的特点，所以算法会对图片进行统一的预处理之后再识别。

预处理的过程包括了光线调整、颜色反转、曝光度、裁剪出关键部位等，如此，可以提升照片的质量。因为深度网络中，算法训练时学习照片的特征，如果照片本身的质量不佳，则算法会学到一些错误的特征，从而可能引发后续的判断错误。同时，一些肉眼无法辨识的特征，尤其是某些相近的种类，如果没有经过预处理，模型就有可能无法获得相关细节，从而发生误判。

形色的技术方案看似简单，但是他们的智慧在于，选择当前效果最好的一项，并将其打磨到最好。

现有的计算机视觉处理任务中，图像识别、分类的效果是最好的，比如：许多人脸识别、图像分类的结果在经过足够的训练数据训练后，可以达到99%以上的准确率，而人由于经验以及其它生理的不同，可以达到的平均准确率也才有95%左右。

所以这从一点上看，形色抓住了图像识别这一技术可以落地的时机。因为大部分AI产品设计的初衷，一定是因为算法可以帮助人类解决部分重复性的工作且解决的效果优于人类。

且在瞄准了切入点之后，他们花了足够多的时间和精力在技术上做深入的积累，等到时机成熟的时候，花费极小的成本将其成功迁移到另一项功能上（拍照识瓜果和海鲜）。

所以人工智能类的产品，不要一开始就着眼于用多复杂的技术、做多复杂的功能，简单、高效直至炉火纯青才是王道！

技术关键词：数据集算法人工辅助技术细节处理
总结

本期一起体验了小众AI产品“形色”，从中也感受到人工智能技术，已经变成各种各样的产品，出现在用户生活的方方面面，帮助用户解决了各种各样的问题。

作为一个人工智能产品经理，我们的思考点在于，怎样通过更为简单的技术，以更低的成本和更好的体验，为用户带来更多惊喜~

作者：Luna，公众号：有三AI，一个专注于人工智能技术与产品落地的公众号，希望可以和热爱AI的人有更深入交流，一起见证AI改变生活！

本文由 @ Luna 原创发布于人人都是产品经理。未经许可，禁止转载

题图来自网络
,