Nov, 2023

MM-Narrator: 多模态上下文学习中的长视频叙事

TL;DR提出了一种利用GPT-4进行多模态上下文学习的新系统——MM-Narrator,用于音频描述的生成。通过提出的记忆增强生成过程,该系统能够在自回归方式下生成准确的音频描述,即使是超过数小时的长视频。MM-Narrator还采用复杂度为基础的演示选择策略,通过少样本的多模态上下文学习(MM-ICL)大大增强了其多步推理能力。在MAD-eval数据集上进行的实验结果表明,MM-Narrator在大多数情况下都优于现有的基于微调和基于LLM的方法,在标准评估指标下得分更高。此外,还引入了首个基于片段的重复文本生成评估器,该评估器通过GPT-4全面推理和评估音频描述生成的性能。