网易严选是一个什么样的平台(网易严选的虚拟直播技术实践)
直播已然成为电商重要的营销方式,但真人主播存在人工成本较高、开播时长限制等问题。严选除了APP自建直播,也在淘宝、京东等渠道展开了直播业务。为低成本地覆盖更多直播场景,严选与伏羲合作,自研了一套能24H自动进行直播和交互的虚拟直播技术体系,已在多个渠道落地。本文将从技术架构、虚拟人技术、素材自动生成、智能交互等几方面介绍相关实践。
1. 背景
经过多年发展,直播已成为线上电商平台的一个重要的推广和销售模块。直播间中高性价比的商品、丰富全面的商品介绍以及主播用户之间的互动,促进了用户观看内容并下单,越来越多的用户也开始通过直播来了解品牌、购买商品。为充分利用直播场景,严选的技术团队也开始探索在这个环节中,除了日常的内容运营,是否还有其他角度能够切入,进行降本增效的空间。
1.1 真人直播
在以往正常的直播中,一般有1到2个真人来到直播间进行实景录制,为观众进行商品的讲解和演示,主播也会通过后台系统或者手机获取观众的评论,与观众进行交互。真人直播的形式,非常适合一些需要试穿、试吃的环节,直播中实时的反馈互动,也会给人以比较强的信任感,取的较好的带货效果。
但对于一些品牌运营方和直播公司来说,真人主播同时也会存在一些固有的痛点需要解决。
- 成本
- 由于体力和节假日限制,真人难以长时间连续开播,特别是对于深夜、假期等。
- 真人直播的成本包含场地、设备、人员费用等,与直播间数量线性增长,特别是一些小店,投入产出ROI不容易控制。
- 主播对于个人形象、口才有一定要求,流动性和个人政策风险(如薇娅等)较高。
- 内容
- 受限于实地场地和实物限制,直播间能够展示的内容和互动形式相对会比较单一。
- 主播在直播过程中容易因口误、紧张等原因导致一些错误,带来不好的影响。
1.2 严选遇到的问题
严选作为一个电商平台,也建设了自己APP的直播体系,全天候的会有直播播出。同时严选作为一个商品品牌,在其他第三方渠道和平台,如淘宝、京东、抖音上也会开店,开展相应的直播业务。
目前严选在全渠道已开设数十个店铺,因店铺类型不同和平台要求,直播内容也需要有所区别。但如果每家店都要开展真人直播的话,则需要分别聘请同等数量的直播团队来进行覆盖,这对直播的运营管理和ROI控制都带来了一定的挑战。
2. 解决方案
2.1 方案特点
在了解到这些问题后,技术团队从技术角度考虑如何能够切入这个场景,既利用了直播的关注度和流量,同时又充分控制随着店铺数量增加而线性增长的成本。经过一系列调研,严选人工智能团队和网易伏羲合作,通过引入AI虚拟人驱动,构建一个综合了虚拟形象、人机对话、实时直播推流等多种技术的虚拟直播系统。
系统具有如下特点:
- 7x24小时、多平台随时为消费者讲解商品卖点
- 一对多在线解答用户商品问题,增强互动
- 高精度虚拟人技术,给用户高质量体验
这种系统的好处有:
- 降低成本,一个店铺的直播开展只需要一小部分算力,而不再需要人工和场地
- 全时段直播,不错过任何流量
- AI智能互动,复用海量商品知识库和先进问答能力
- 新鲜的内容和形象,与品牌调性一致,有利于差异化竞争
当然也可以直观发现,这样的系统会高度依赖虚拟直播内容的质量、数量、虚拟人的外观形象、智能互动系统的智能程度等。所以要做好一个虚拟直播系统,就需要分别解决这几个子问题。
2.2 技术架构
经过可行性调研和实际实践,严选目前形成了如下的虚拟直播技术架构:
系统可以分为四层:
- 最底层是直播任务的基本配置,包括直播间的排版、最原始的剧本内容、开播时间、是哪个渠道的开播等,技术栈为一般的后台配置系统相关。
- 第二层是直播内容的控制,决策现在需要播出什么样的内容,以什么形式播出,剧本是否实时调整。这里技术会涉及任务流调度、数据爬虫、智能问答、WebSocket双向消息通信等。部分内容可能会通过评论区直接展示,不再传递到渲染层。
- 第三层是渲染层,会将所有需要播出的内容聚合叠加到一起,按照预先定义好的排版进行渲染,生成符合要求的视频流数据。这里的技术会涉及WebGL渲染、前端排版、人物建模、语音合成、动作生成等。
- 第四层就是直播内容的推送,将第三层构建好的视频数据推流到特定的渠道中(如严选APP、淘宝等)。主要技术有RTC推流、虚拟摄像头生成等。
可以看出,整个系统本身不与特定渠道强绑定,比较独立,跟渠道绑定的剧本和相关配置可以通过配置系统动态生成或者支持实时修改。其中第三层的虚拟人部分与伏羲合作,目前是一个 Web SDK 或者 Unity客户端的方式提供,通过接口输入需要播报的文本,自动产出动作视频和语音,然后再由前端系统整合到最终的画面中。
如果从内容生产的角度来看,整个系统的本质就是不断实时生产各种类型的内容,同时动态决策下一阶段的内容,并把他们进行有机整合的过程。最后接一个直播推送即可。
而如果从数据流的角度简化来看,虚拟直播项目可以拆为核心的如下五个步骤:
- 播出内容的预准备
- 内容的排版和渲染
- 内容的推送
- 收集用户反馈
- 根据用户的反馈,智能决策下一步内容,回到第一步
2.3 VS中之人虚拟直播
也许也会有人在B站或者其他媒体看到过一些虚拟人直播,比如 二次元的若天依、写实的许安一、金桔2049、A-Soul等,其画面和人物的灵活度相对会很高。
那这种直播又是如何产出的呢?与我们要介绍的系统有什么联系呢?在完全自动的虚拟直播出来之前,为解决内容产出新颖度、主播形象虚拟化等问题,市场上出现了中之人类型的虚拟主播。其实现方式是先通过2D或3D建模出一个虚拟形象,然后通过面部捕捉和动作捕捉,由一个真人在背后驱动虚拟人进行直播活动。
Bilibili上大量的二次元博主也采用了这一类型的直播方法。这种方法在业界被称为中之人直播,根据其所采用的技术方案,会分为面部动捕、半身动捕、全身动捕几个层级。要达到比较好的演出效果,一般都需要采用全身动捕的方案(如下图)。
中之人直播因其给后期特效制作带来了非常大的改造空间,所以效果上容易做的比较标新立异,从而从普通的直播内容中脱颖而出(如抖音的金桔、许安一)。但中之人直播本质上也没有解决真人直播时长覆盖、成本高、容易出错的影响,同时动捕等设备的引入,也带来了一些额外的设备成本。这种方案比较适合直播间比较少,专注做娱乐导向内容,制作经费充足,有专业演员和后勤保障人员的团队使用。
下面使用一个表格来对比一下真人直播、中之人直播、纯虚拟直播三种直播方式的差异:
真人直播 |
中之人直播 |
纯虚拟直播 | |
场地需求 |
实景场地 |
特殊绿幕场地 |
无 |
设备需求 |
补光灯、摄影机等摄影器材 |
根据技术类型,有动捕设备、光学设备、摄像机等 |
服务器 |
人员需求 |
主播、助手等 |
专业演员、助手等 |
无 |
内容编排需求 |
选品、主播个人发挥 |
演出剧本、主播个人发挥 |
固定策略和剧本 |
内容优劣势 |
主播个人魅力,信任感高,效果上限在主播 |
内容新颖,才艺展示多,效果上限跟主播和特效团队相关 |
内容相对固定 ,信任感较差,效果上限在技术团队 |
内容导向 |
带货或娱乐 |
娱乐、虚拟偶像 |
带货 |
推流方式 |
标准推流 |
标准推流 |
标准推流 |
总体成本 |
较高 |
高 |
低 |
可以看到三种直播方式主要是在内容生产方式、对设备和人员依赖上有比较多的差异,但最后都是通过一样的方式将内容进行推送。我们要介绍的虚拟直播主要是从节约人力的角度切入,但同时也确实存在内容吸引度、信任度不足的问题。
3. 实践细节
以下将从虚拟人技术、素材自动化、智能交互、直播控制几个方面介绍相应的技术细节。
3.1 虚拟人
虚拟人可以说是虚拟主播的核心灵魂,承担了主播中"人"的一环。其需要跟真人一样,能够说话、有合适的表情、肢体动作,并且视觉上要比较接近真人。这里严选和技术相对成熟的伏羲合作,引入了伏羲的虚拟人技术,以Unity客户端或Web SDK的方式引入到项目中。输入一句文字,客户端即会开始进行语音讲解,同时搭配上合适的表情和动作。
这里会涉及四个子任务:
- 语音合成,如何合成更接近真人音色、音调、抑扬顿挫感觉的声音
- 表情生成,根据语音,其对应的表情和口型如何处理
- 根据语言的语义,此时的肢体动作如何进行合理的搭配。
- 上述三个内容如何进行时间轴对齐,达到声音和视觉统一。
上述技术在本篇文章中不再过多介绍,感兴趣的同学可以通过伏羲的相关文章进行学习和了解,比如在《Audio2Head: Audio-driven One-shot Talking-head GeNERation with Natural Head Motion》论文中,提出了一个通过语音输入自动输出头部说话视频的方案Audio2Head。该方案对头动单独建模,提出基于空间编码的神经网络进行自然的头动序列预测。为了对语音相关的整张图像的运动进行建模,伏羲团队提出了使用语音先驱动生成整幅图的稠密运动场,再由稠密运动场引导图像合成。那如果人物模型本身如果已经是3D建模而来,那么整个头部的动作预测的空间就会更小,大部分只需要转化为指令集的映射即可。
3.2 素材自动生成
虚拟人是承接内容讲解的“讲解员”,而讲的好不好,更多是由被讲解的内容本身决定的。真人的话,因为其会发挥其个人的主观能动性,会有试用试吃的真实感受、还有作为推销专家的一套特定话术,然后再综合商品本身的一些标准参数和设计构成直播的讲解过程。
而虚拟主播按照目前的智能程度,想完全通过自动达到真人一样的效果是不现实的,所以还是需要依赖真人的协助来产出高质量的文案和商品介绍,只是产出的结果可以让机器自动无限次自动利用。这样需要人工协助的方式存在一个问题,面对海量需要讲解的商品,让每一个商品的素材剧本都通过专家来生成,是不现实的,成本也非常高。
所以这里从技术出发,需要机器和算法的力量来参与到这个过程中,起到的作用有两个:
- 针对部分非热门长尾商品,尝试利用已有的其他素材来直接自动化构建剧本
- 针对热门商品,尝试先挖掘出一些潜在的卖点和可用素材,提供给人工,辅助编写精致的高质量剧本。
具体展开,根据素材类型的不同,会有商品标题、商品文案、商品视频、游戏素材等不同的构建方式。针对这些素材的自动合成,严选也构建了一套对应的技术支撑体系,涉及NLP、CV等领域的多种技术,粗略地可以分为基础能力、素材挖掘和模板编排三个层次。
- 基础能力:包含一些最原子化的服务,如OCR图片文字识别、NER实体识别、业务词典、细粒度情感分析等。
- 素材挖掘:使用NLP技术从严选的UGC和PGC内容中抽取优质的评论、商品标题以及卖点等信息,同时为了满足互动游戏的需求,也会使用图片来生成一些低成本的游戏视频。
- 模板编排:结合挖掘的商品静态信息,加入商品的促销活动、排行榜等动态信息生成文案;另外,从商详页匹配对应的图片信息,进行图文匹配展示;为了提升货品的表现力,部分图片会转化为动态的视频。
直播场景下,每一个商品最重要的信息就是标题。而传统的淘宝风长标题(“汽车遮阳伞车窗遮阳帘防晒隔热遮阳前挡风玻璃板罩车载用内侧窗帘”),或者文艺风标题(“谱写爱的篇章,莫扎特钢笔墨水礼盒”),并不适合在直播间这样文字展示不宜太多的地方使用。一般虚拟直播合适的排版留给商品标题的空间只有8个字左右。
所以如何给这些商品产出相对较短,但保留核心信息的短标题, 就成为了一个需求。
为了解决这个需求,严选借鉴业界比较经典的改进版transformer端到端模型,可以把这个过程理解为摘要抽取的过程,从原来一个较长的句子中把关键的信息摘要提取出来。
但是这个seq2seq模型的训练也需要一定量的标注数据。为了解决标注数据冷启动的问题,这里用了启发式方法,基于依存句法树和NER模型生成一些规则来提取短标题,以一个实例讲解,如下图所示。
- 获取中心词:使用NN获取表盘、女式、腕表,根据中心词表,选取女式腕表作为中心词。
- 利用依存关系扩展修饰词:抽取compound:nn和amod等dep来扩展。
- 再使用NER来补充修饰词:例如“瑞士”表示产地,最终获取“瑞士小表盘女士腕表”
对于算法策略产出的数据,人工再进行一定校验即可。这样构建样本数据的速度比单纯人工手写的方式会快很多。
3.2.2 商品文案
商品播报剧本的形式一般是围绕目标商品展开的约200-300字的介绍文案,需要介绍商品的基本信息和重要卖点,同时穿插一些促销信息。所以为了综合内容丰富度、可读性和业务需求,主要采用的是抽取式和模板方法相结合的方式。对于抽取式方法主要流程如下图所示:
- 素材筛选
- 原始候选的素材除了PGC达人文案,也会考虑更加接近地气的UGC用户评论,使用摘要模型和规则抽取评论信息。素材获取的过程尽量保证卖点多样性,例如床垫内产品,需要同时考虑功能(透气、除螨)、软硬程度(偏软、偏硬)和厚度(25cm)等;这一部分可以理解为原始素材的召回过程,构建 卖点-》短文案的语料库。
- 文案生成
- 在获取原始的候选素材后,第二步在文案生成模块中,使用了pointer-generator transformer模型。模型既可以从原始的词表中抽取核心的卖点,保证生成文案的可控性和相关性;同时从大词表中抽取文字,可以保证文案的流畅性和可扩展性。
- 同时,考虑到部分长尾类目没有讲解的数据,需要使用人工模板来生成文案内容。
- 电商场景下常见模板如下:【商品出场介绍】 【促销活动】 【卖点列表】 【用户评论】 【促销活动】 【下单话术】
- 质量评估
- 最终为了满足业务上线要求,文案会使用预训练模型判断流畅度;同时根据广告法以及运营业务经验等,使用关键词来剔除低质量文本。
3.2.3 游戏素材
为了提升直播环节的趣味性,直播间会设计一些小游戏,典型的会有你画我猜游戏。直播画面出现一个简笔画或者抽象画内容,绘画的内容是一点点出现的,然后用户在评论区输入答案进行竞猜,最先答对的人可以进行抽奖。那从技术角度要解决的就是如何快速自动生成这些游戏素材视频,满足需求。
我们的做法是首先从quick draw网站中,搜到了很多不同的有趣图片。例如如下的螃蟹图。接下来需要把它转化为逐帧的视频文件。方法很简单:
- 划分图片为小连通图。通过广度优先遍历,按照图片的点阵分为一个个连通图。
- 逐个绘制连通图。将每个连通度按照深度优先的方式进行绘制,并且保存为图片。
- 按一定帧率逐帧拼接为视频。
最近我们也注意到一些Text2Image模型,如CogView,DALLE等,输入一个自然语言文本,即可生产一个对应的图像。这种模型也很适合批量生产你画我猜的游戏素材。
3.3 智能交互
虚拟主播场景中,交互的方式是,用户在评论区输入需要关心的问题或者话语,后台程序收到后进行解析和判断,然后在评论区文字回复,或者生成内容让虚拟主播进行口头播报、甚至实时生成一个多媒体内容,放在直播间进行渲染展示。
虚拟主播的智能交互部分,严选团队这边考虑其和智能客服会有非常高的相似度,所以是在已有的智能客服体系的基础上,进行了一定的改造而成。虽然两者的场景会有一定的不同,但其最核心的问题匹配算法、知识库存储方式其实都是一样的,这里只做一些简单的介绍。
智能客服 |
虚拟主播 | |
交互人数 |
1 VS 1 |
1 VS N |
会话环境 |
某个订单页或者商详页等入口 |
某场直播 |
目标 |
售前、售中或售后 |
售前 |
用户输入 |
文字、图片、订单等 |
评论区评论 |
回复方式 |
文字、图片、SOP等 |
评论、主播口播、直播内容 |
知识库 |
商品知识 业务知识 |
商品知识 业务知识 |
在虚拟直播中,用户关心的问题会包含商品咨询、促销咨询等,少量会包含闲聊,主要使用意图分类、文本匹配、知识库检索来实现。
3.3.1 知识库
智能问答最重要的核心就是知识库如何构建。严选知识库的存储主要分为两类,一类是围绕业务构建的,基于标准问题-相似问题-答案构建的FAQ知识库,如“什么时候发货”、“抽奖什么时候开始”相关的各种说法和解决方案。
另一类是围绕商品构建的知识图谱,包含了商品属性、商品卖点、商品促销信息等。其他类型的非结构化数据,如商详页的图片、活动规则等,也会先通过算法抽取加人工标校验的方式,转化到上述两类知识库中。当用户的问题输入后,就可以针对这两个知识库进行特定的检索和匹配,即可回答。
所以想做好智能问答,就需要先做好知识库。而知识库构建中有一个重要的环节,就是不断添加用户关注、商品相关的新知识。传统的方式都是人工一条条去编辑和截图等方法生成,费时费力,那有没有更好的办法呢。
在严选的商详页中,其实就有非常多的可以回复用户的知识,比如用户常常咨询的商品尺寸、模特展示、对比大小的问题。这类型的问题,答案采用图片的回复而不是单纯的文本,会更直观。这里图片问题与答案抽取的方式,我们借鉴了CV中的目标检测方案,即将需要截取的图片答案作为目标检测任务的groud truth。
比如一款包的商品,我们想把包的尺寸信息抽取出来作为图文答案
抽取的过程可以类比CV的目标检测,先定义出我们需要的商品知识类型,如使用场景、模特试穿、尺码说明、试用说明等,检测目标就是对应内容的截图,然后训练一个对应类型的目标检测模型即可。当然为了构建一个目标检测模型,也需要提前构建一个有标注的目标检测数据集,这边严选基于预训练的公开模型,再标注了千级别的样本,即可检测出常用的几种商品目标。
3.3.2 问题匹配
当知识库构建好之后,就需要合适的检索方法。匹配模型是当前识别模块的主干部分,现有的大部分用户回复都是从匹配模型中查找返回。被匹配的是知识库中的标准问、相似问,也可能是商品属性名等。
匹配模型本身是一个双塔结构,在训练时,使用历史的用户点击问题数据作为训练样本,下图是模型的主要结构。
整体会分为线上和离线两个部分:
- 离线:
- 离线部分会预先存储知识向量和相关的索引,同时知识库的知识变更时,知识向量也会同步修改或新增。
- 在线:
- 在线主要拆分为召回和排序两块,用户输入"为何取消"会预先使用elastic search和向量检索,从知识库中找到和用户咨询问题相近的50个知识,排序模块再对此50个知识重新排序,最后输出排序结果
意图识别模型
意图识别的模型是为了补充匹配模型的不足新增的模块,对于部分常见且稳定的用户问题,比如大部分售后的退换货维修等问题,意图识别模型更适合这种量大且稳定的知识,引入意图识别模型可以提高其准确率和直接回复率。
意图识别模型内部分为两个小模型,即层次分类模型 小样本模型的结果融合。
3.4 直播控制
以上介绍的都是每一场直播内部会用到什么样的内容和机制,那么对于直播任务本身的控制又是什么样的呢?
一般的后台项目,都是以接口的方式对外承担职责,一个数据请求发进去,返回一个经过复杂链路的数据回来。而虚拟直播不同,因为它最后要生产出可以观看的内容,并且实时不断将视频流上传到特定的数据通道中。生产可观看内容的过程,往往还需要借助如Windows 这种带有 GUI底层支持的系统的能力,不能直接部署在centos这种传统的服务器中。
另外需要说明的是,每个直播任务,基本需要独占一个系统实例,在直播过程中就无法再承接其他直播任务,等直播结束后再等待下一个任务,如此循环,由N台机器分别完成N个直播任务。
4. 未来展望
综上所述,直播已成为电商营销的重要一环,严选开展直播业务遇到了店铺多、成本线性增长等问题。针对这些问题,技术团队提出了自研的虚拟直播方案,并从素材生产、虚拟人使用、直播任务调度等进行了多方面的实践。相关方案已在主要渠道(APP、淘宝、京东、拼多多)进行落地,持续产出业务收益。
可以看到的是,在虚拟直播项目中,对于内容的生产是最为核心的一个环节。如何产出高质量的内容,给与观众信任感、高级感是一个需要长久解决的问题。另一方面,跟真人的内容相比,虚拟直播是否有一些独特的差异和优势呢?这里我们想到有3点:
4.1 3D化场景
一般的虚拟直播都是平面的2D场景,看久了会比较枯燥。现在3D渲染技术也已非常成熟,是否可以把虚拟直播的场景也改造为3D,同时虚拟人可以在这个空间进行一定的行走和互动。相关商品的展示也可以3D化,以展览的方式进行陈列。
这个方式相比真人直播间会有较大的差异点。一般真人直播间都是固定摄像机,主播必须固定在一个固定的桌子上,排版会比较固定。而3D化虚拟直播能够提供更多角度和更大宽度的空间进行展示。
4.2 直播矩阵
严选的商品会有很多类目,不同类型商品的受众也会有巨大的不同,比如猫粮的买家普遍会对动物有比较大的好感,而经常买游戏周边的玩家自然会对二次元有更大的接受度。所以这里有一个可以优化的点是说,针对不同直播间和商品的直播,可以构造一个由不同类型、形象、音色的主播构成的主播矩阵。
直播时,就可以根据当前的需求和用户群,自由调配合适的主播上场。而真人主播,如果想同时培养这么多不同类型主播构成的直播团队,并且随时进行调配,几乎是很难实现的。但这个事情如果从虚拟直播角度来实现,就会有比较大的可行性了。
4.3 真人伴播
我们在推进项目的过程中,同时也与真人直播团队进行了大量的交流,收集了他们的很多需求。比如在直播过程中,往往会有很多用户会提很多问题,比如“25号的羽绒服还有货吗?”、“这个商品能叠加红包吗?”之类的问题,而主播受限于注意力,不可能每一个问题都能够回答。
这个时候如果能够有一个类似助理的角色出现,辅助真人把这些问题能够回答好,也能提升一定的效果。
以上是严选技术团队在虚拟直播领域相关的一些实践,项目也才开展半年多的时间,还有很多地方需要改进和优化,欢迎感兴趣的同学一起交流。
作者:严选技术
来源:严选技术产品团队
出处:https://mp.weixin.qq.com/s/x8ChYGHx-aWnDXWVjhWq5g
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com