10万爆款文的特性(重新定义爆款文)

基于内容特征以及协同过滤算法机制的推荐系统,使优质草根难以有“出头之日”。关于内容价值的高低,不能一直靠冷冰冰的算法来判定,长此以往,只会使内容生产流水线化,好内容消匿在所谓的“爆款文”浪潮中。微信新提出的新的热度预测模型——DETC,将改变这种现状,促进内容价值判定标准多元化,重新定义“爆款文”。

10万爆款文的特性(重新定义爆款文)(1)

没有一个时代比今天更重视技术对于内容的价值。

越来越多的人们,尤其是年轻人,更加愿意使用和相信算法生成和推送的内容。算法之于文章,扮演的就是一个“星探”的角色。它需要在刚刚见面的几分钟内,就判断出哪个具有“明日之星”的潜力,以便分配更多的资源帮助它“走花路”,而不是只会在对方走红之后,才说出“我早就知道”的马后炮。

不幸的是,大部分基于内容特征和协同过滤算法的推荐系统,都无法“识英雄于微时”——在文章发出早期就判断出其受欢迎程度。这就导致一些原本质量很高的文章,很可能因为初始浏览量不够而被埋没,“标题党”“咪蒙系”反而有可能得到越来越多的推荐和热度。

如何在过剩的信息洪流中将用户最感兴趣、最具潜力的资讯率先甄选出来,是建立一个良性内容生态的关键,却也是困扰各大巨头、悬而未决的技术难题。

最近,微信的研究人员就提出了一种新的神经网络方法DFTC,用来更好地预测网络文章的热度。由于该模型表现出了良好的性能,已经被AAAI 2019 大会接收, 并在大会上作了主题报告。

它在哪些领域进行了创新?又能为现有的爆款内容生产机制带来哪些改变呢?渠道分发哪家强?热度预测又面临哪些难题?

在介绍新方法之前,有必要先梳理一下,当前的推荐算法都是如何进行热度预测的?

如何进行热度预测

一种是基于聚合浏览量的时间演进过程,比如:今日头条的热门推荐算法,就是优先推荐热门的文章。

这种方式的优势是:已知的历史热度会越来越接近整体受欢迎程度,因此,模型的表现也会随着文章发布的时间而变得越来越好。

但由于很多外部因素带来的意外增长,都是不可预测的,时间热度模型却对此却无能为力。即使引入人工干预,除非像咪蒙系一样凭借大量经验和策划,否则也很难确定爆款文章可能出现的时间,以及生命力有多强。

10万爆款文的特性(重新定义爆款文)(2)

二是通过预测内容特征的受欢迎程度,来推断整体可能的热度。

Yahoo Today就曾经用新闻的点击率来进行画像,并用feature-based learning方法来建模用户对资讯感兴趣的程度。

其中包括静态特征,比如:资讯的类目、主题等;以及动态特征,如某条资讯、某类资讯分时间段的各种统计值等。

通过这种方法,Yahoo发现在推荐新闻时,娱乐类新闻天然比体育类新闻点击率高。

由于内容特征不会随着时间而变化,因此很多不那么刺激眼球的内容,也可以获得公平的曝光机会,使得该模型在早期阶段效果更为可靠。

但问题也随之而来,网络文章通常是长文本,加上越来越复杂的元数据特征(如标题、类别、作者信息等),建模难度也日渐增大,目前还没有此类模型能够完全地利用这些数据。

不难发现:不论是基于时间演进,还是基于内容特征,都不足以支撑内容终极价值的判断标准。只有双管齐下,才能发挥出最佳的预测效果。然而,这对于算法工程师来说是极大的挑战。

DFTC:改写热度预测的丛林法则

为了改变这一现状,微信的研究人员就此提出了一种将时间过程,与内容特征深度地融合到一起的神经网络方法——Deep Fusion of Temporal process and Content features,简称DFTC,来构建更合理的热度预测系统。

他们收集了2018年5月-7月的6万篇微信公众号文章的热度数据,将文章热度分为 3 类:爆款(阅读量>10000),冷门(阅读量<100)和普通 (其它)。最终得到一个类别基本平衡的数据集用作训练 (training set) 和测试 (balanced test set),并建立了一个2 万篇文章构成的随机测试集 (random test set)。

10万爆款文的特性(重新定义爆款文)(3)

DFTC一共包含三个部分:

  1. 时间过程建模;
  2. 内容特征建模;
  3. 注意融合。

首先,采用卷积神经网络(Attention CNN)来提取文章增长和下降的短期波动情况,比如:一篇文章每小时浏览量的变化情况。

接着,再利用循环神经网络(RNN)得出文章受欢迎程度的长期增长趋势。

然后,利用分层注意网络(HAN)来获取文本特征,使用嵌入技术来学习各种元数据的特征,并进行建模,得到一个内容特征模型。

接下来,将建好的时序模型和内容模型利用注意力机制,动态地组合到一起,生成一个能够体现出文章热度演变过程多样性的灵活权重(Popularity level)。

DFTC的创新之处是,解决了三个悬而未决的行业难题:

  1. 如何预测意外情况带来的短期波动(Attention CNN自动学习短期波动,不做具体假设或人工设计);
  2. 如何解决元数据多模态的识别难题(embedding技术可以识别短文本描述、标题和图像等多种表现形式);
  3. 相同内容特征与不同生命周期阶段的连接(Attention融合机制,生成一个灵活权重而非线性组合)。

至此,一个更优秀的热度预测模型就诞生了。

实验数据显示:“两手抓两手都要硬”的DFTC,在文章发布后的前5个小时,其预测的准确度相比其他单一性解决方案强出了不少。

10万爆款文的特性(重新定义爆款文)(4)

不难发现:DFTC正是基于对短期浏览量、意外因素、内容关键词等可能,决定最终受欢迎程度的多重因素进行了全面统筹,才能在初始期就做出更精准的判断。

因此,一些枯燥无趣的内容会被率先过滤掉,有潜力的优质文章也更容易得到推荐,避免了“酒香也怕巷子深”的命运。

或许不久以后,依靠经验和直觉打造爆款,和依靠大数据与关键词打造爆款,这些技术蛮荒时代的丛林法则慢慢都会被更好的生态机制所取代。

热度预测照亮的未来,不只属于文字。

个性化推荐系统既不能完全遵循用户兴趣标签与内容特征抽取的匹配,那会导致越来越严重的信息茧房(“喜欢你就多看点”)和回声室效应(“你反对的绝不出现”);也不能单纯依靠文章的生命周期来判断,让优质创作者在平台偏向(“这篇会火都给我看”)之下凉了热血。

因此单纯从数据上看,DFTC是成功的。

目前,微信已经将该模型作为系统选择和推荐文章的重要依据,开始在“看一看”等产品场景中进行实践。

从更广泛的实用性来说,DFTC所代表的思路,用深度学习技术和思维解决预测问题,正在成为业界共识。

“在任意时间预测网络内容的最终热度”,DFTC不仅仅只有资讯平台的推荐算法,在广告、搜索等业务也能起到很强的推动作用,提高内容的分发效率。

而就在前不久,微软也提出过一个跨产品的用户行为模型,将用户在搜索、新闻、appstore、xbox等多个产品线上的行为(反馈)统一在一起。这样训练出的深度学习网络,就能很好地优化和解决单个产品上(用户)冷启动、信息稀疏等问题。

也就是说:可能你搜索了“房价会不会继续上涨”,打开新闻APP就会收到“房价可能回到三年前”的新闻,是不是有点细思极恐呢?

这也反映出深度学习进行热点预测所呈现的新的问题:

平台对热点的评估只是一种模仿,好的阅读体验究竟应该如何量化?

为了更好的阅读体验,读者需要让渡多少个人隐私?

当然,现在想这些还有点为时过早。无论如何,热度预测模型能力的升级,正在让内容产业关于价值的标尺越来越多元,这可能是算法最具人性的一次。

作者:脑极体,脑极体

本文由 @脑极体 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来源于 Unsplash,基于CC0协议

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页