May, 2023

Paxion: 在视频 - 语言基础模型中修补动作知识

TL;DR该研究提出了一种新型框架 Paxion,通过 Knowledge Patcher 和 Knowledge Fuser 模块来填补视频语言模型在动作知识理解方面存在的短板。研究使用 DVDM 目标训练 Knowledge Patcher,以提高模型对行为文本和视频帧的相关性编码能力,从而实现动作知识理解。实验结果表明,Paxion 和 DVDM 目标的使用有效地填补了多模态动作知识方面的差距,并在对象为中心的下游任务上保持或提高了性能。