推荐算法评价的基本标准(个性化推荐算法的解释路径)
从《电子商务法》到《个人信息保护法》,再到最新出台的《互联网信息服务算法推荐管理规定》,我国关于算法治理的法律规范体系逐步建立,在各类算法中,个性化推荐类算法与人们日常生活联系最为紧密,也是引发争议较多的算法类型之一。
随着诸多以Web2.0技术为基础的网络平台的涌现,普通用户制作和传播信息的技术门槛大幅降低,社会信息总量也因此呈几何级数增长。然而面对海量的信息,依靠人工采编或以固定规则(如点击量、时间线、关键词)为基础的信息分发方式,却只能做到“弱水三千只取一瓢”,信息筛选的质量虽然有所保障,但绝大多数增量信息都因无法有效触达用户而被束之高阁,信息市场中的“二八定律”并不会因为供给端的增长而发生实质性改变。
个性化推荐算法正是为解决上述问题应运而生。通过个性化推荐服务,网络服务提供者可以根据用户偏好在海量信息中进行筛选,并优先呈现与用户需求相契合的信息内容。此种信息分发方式显著提高了信息供需双方的匹配效率,使得单位时间内的信息曝光总量得以大幅提升,为激活更多细分市场创造条件。细分市场的活跃无疑将极大扩展市场的总体容量,在为社会创造大量就业机会的同时,不断丰富市场中的商品和服务供给。例如,短视频平台中的视频博主、信息平台中的自媒体等无不需要依托于个性化推荐算法,在海量信息和茫茫人海中实现供需双方的精准匹配,并由此获得经济收益。此外,从信息接收方角度看,个性化推荐算法也有助于其高效获得有真正价值的信息,减少在信息检索方面的精力消耗。好的推荐算法还会根据用户的既有偏好,在恰当的范围内拓展其信息边界,从而发现或激发新的信息需求。
在理想状态下,一个运转良好的个性化推荐算法将为信息提供者、信息接收者以及信息平台带来三方供应的良好格局。然而现实情况并非总是如此,个性化推荐算法的内在风险同样不容忽视。在实践中,掌握规则主导权的算法服务提供者可能因为技术能力欠缺,或者出于自身利益的考量,使相关主体乃至社会公共利益因算法失衡而受到负面影响,其中最为典型的便是为了获得更强用户黏性,而不断向用户推荐同类信息所造成的“信息茧房”效应。事实上,正是为了避免处于被动接受地位的用户在无法做出有意义选择的情况下因算法存在的瑕疵或缺陷受到损害,立法者赋予了其算法解释权。立法者希望通过增加算法运行机制的透明度,使用户有能力根据自己的意愿对算法的效果进行反馈,从而不断矫正个性化推荐对其的负面影响。
了解算法的基本原理和运行机制,是打破算法黑箱、建立算法信任的重要基础。个性化推荐算法的底层逻辑可概括为以下几个步骤:采集信息——根据信息建立标签体系,形成对用户、信息、渠道等维度的画像——根据标签之间的映射关系圈选人群,确定推送信息内容——根据推送效果反馈不断调优算法。
第一,个性化推荐以人群而非个人为对象。使用个性化推荐的目的是通过需求与供给的准确匹配促成价值转化,如购买商品、提高视频完播率和信息点击率等,而只有当此种转化达到一定规模时,才能够使信息供给方获得有意义的受益。因此,在设置个性化推荐算法时,需要根据实际需求在信息“准确率”和“召回率”之间进行动态调节,既不能为了追求极致准确而过度压缩触达人群,也不能单纯为了扩大触达人群而牺牲信息准确性。
第二,标签来源具有多维性。标签体系是个性化推荐算法的“灵魂”,是指引信息分发的方向标。人们最为熟悉的用户画像,本质上即是基于用户身份信息、社会属性、行为习惯、品类偏好、地理位置等多维度信息,通过归纳和演绎产生的标签系统,每个标签都是理解和认识用户的一个维度。为了在信息和用户之间形成映射关系,个性化推荐的标签不仅需要来自对于用户的画像,还需要围绕信息本身进行画像,最终形成多维度、立体化的标签体系。以电商平台的个性化推荐算法为例,常用的标签类型还包括:商品维度,如商品的叶子类目、品牌定位、价格区间、目标用户人群特征等;店铺维度,如店铺定位、所处地域、店铺类型等;渠道维度,如搜索、促销活动、直播、推荐等。此外,外部环境的特征也可能成为影响个性化推荐结果的考量因素,如气候变化、节假日、大型体育赛事等。
第三,个性化推荐的结果来自标签之间的映射关系,而映射规则是最终决定推荐信息内容的关键,其既可能来自算法服务提供者对于社会、市场、社交等规律的洞悉,如消费者在购买A类商品后,通常会对B类商品产生兴趣。信息发布者根据具体需求也可能自主选择,如广告主可以通过使用营销工具,根据商品或营销活动的特点选择对应的标签来圈选目标人群,从而实现更为精准的投放效果。当然,实践中的映射规则往往更为复杂,每一个推荐结果的背后,都可能涉及多个具有不同权重的标签的排列组合。算法工程师需要综合准确率、覆盖率、多样性、新颖度、精细度、实时性等多方面指标,结合实际效果对标签的权重和其映射规则进行动态调整。
根据《个人信息保护法》第24条之规定,对于信息内容的个性化推荐同样属于自动化决策范畴。然而与在征信、信贷等领域使用的算法不同,个性化推荐算法在绝大多数场景中的使用目的均是向用户进行信息分发,并不会直接改变用户与其他主体之间的权利义务关系,进而对其人身财产权益造成直接影响。因此,基于《互联网信息服务算法推荐管理规定》提出的算法分级分类管理原则,对于个性化推荐算法解释路径的设置应综合考虑算法的运行机制、使用场景,以及可能对用户、算法服务提供者等相关主体造成的影响。毕竟算法解释本身只是手段,帮助用户更好地理解算法运行机制,从而有能力通过自己的行为对算法效果进行有效反馈,最终实现多方共赢并建立信任关系,才是立法者设置算法解释权、拒绝权的最终目标。具体来说,可主要关注以下三个维度。
第一,数据维度。若将算法比作精密运转的机器,那么数据就是为机器提供动力的能源。因此,对于个性化推荐算法所依托的数据类型的披露,将有助于用户从底层理解算法运作逻辑,特别是对个人信息使用情况的介绍,还可通过在推送结果与用户授权使用的个人信息之间的因果(或相关)关系,化解用户对于个人信息安全的担忧情绪,并对算法提供者滥用个人信息形成约束。
第二,决策维度。主要通过在合理范围内向用户披露标签系统,并对个性化推荐结果与标签之间的映射关系进行说明,让用户对推荐结果的来源获得合理预期。但需说明的是,由于标签系统是个性化推荐算法运转的核心,涉及算法服务提供者的商业秘密,若被其他市场主体或公众完全洞悉,不仅会对其商业利益造成直接损害,还可能导致算法被恶意利用,破坏正常的经营秩序。因此,对于决策维度的信息披露,应允许算法服务提供者进行脱敏处理,并将重点集中在对算法基本运作逻辑的说明。
第三,效果维度。为了让用户能够从事前、事中和事后多个维度更为全面地了解个性化推荐算法的运作机制,算法服务提供者可通过简单易懂的方式,对用户的反馈效果进行说明。如在用户对特定信息内容标识“不感兴趣”后,告知算法将“不再推荐类似商品”,在不涉及泄露商业秘密的前提下,还可进一步细化效果的颗粒度,如“不再推荐类似价格/款式/品牌的商品”。
(作者系阿里巴巴集团政策法规研究室高级专家)
来源:中国社会科学网-中国社会科学报 作者:刘明
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com