AAAISep, 2021

UniMS: 面向多模态摘要的统一框架与知识蒸馏

TL;DR提出了一种基于 BART 和 UniMS 的统一多模式摘要框架,该框架集成了抽取和生成目标,以及图像选择,通过视觉语言预训练模型进行知识蒸馏来改进图像选择,并引入视觉引导解码器来更好地整合文本和视觉模态,证明了提出的方法明显改善了多模态摘要任务的新状态 - of-the-art 结果。