哪些是多元信息融合模型(实现统一的关键帧传播模型)
许多视频编辑任务(例如转描或对象移除)都需要跨帧传播上下文。虽然变换器和其他基于注意力的全局聚合特征方法在将对象掩码从关键帧传播到整个视频方面取得了巨大成功,但它们难以忠实地传播诸如纹理之类的高频细节。我们假设这是由于全局的固有偏差关注低频特征。为了克服这个限制,我们提出了一种双流方法,其中高频特征在本地交互,低频特征在全局交互。全局交互流在显式对齐失败的情况下仍然是稳健的,例如大型相机运动。局部交互流通过可变形特征聚合传播高频细节,并在全局交互流的通知下学习检测和纠正变形场的错误。我们评估了用于修复任务的双流方法,其中实验表明它改进了图像修复所需的单帧内特征的传播,以及它们从关键帧到目标帧的传播。应用于视频修复,我们的方法导致 44 FID 和 LPIPS 分数分别提高 % 和 26%。代码在 https://github.com/runwayml/guided-inpainting
《Towards Unified Keyframe Propagation Models》
论文地址:http://arxiv.org/abs/2205.09731v1
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com