Mar, 2024

CAT: 增强多模态大型语言模型以回答动态音频 - 视觉场景中的问题

TL;DR本研究关注于回答由丰富而复杂的动态视听组件组成的场景中的问题,引入了 CAT 来增强 Multimodal Large Language Models(MLLMs)在这些场景中的应用,CAT 通过聚合问题相关线索、训练混合多模态数据集以及优化模型,提高了模型在多模态任务中的表现,特别是在音视频问题回答任务中。