Sep, 2023

MSG-BART: 视频情景增强的多粒度编码器 - 解码器语言模型用于基于视频的对话生成

TL;DR提出了一种名为 MSG-BART 的新方法,通过将多粒度时空场景图集成到编码器 - 解码器预训练语言模型中,增强了视频信息的整合,改进了整体感知和目标推理能力,进一步提高了信息选择能力。在三个视频对话基准测试上进行了广泛的实验,表明 MSG-BART 相比一系列最先进的方法具有显著的优势。