Sep, 2023

MSG-BART: 视频情景增强的多粒度编码器-解码器语言模型用于基于视频的对话生成

TL;DR提出了一种名为MSG-BART的新方法,通过将多粒度时空场景图集成到编码器-解码器预训练语言模型中,增强了视频信息的整合,改进了整体感知和目标推理能力,进一步提高了信息选择能力。在三个视频对话基准测试上进行了广泛的实验,表明MSG-BART相比一系列最先进的方法具有显著的优势。