Dec, 2023

音视频 LLM 用于视频理解

TL;DR该论文介绍了一种名为 Audio-Visual LLM 的多模态大型语言模型,它通过同时接收视觉和听觉输入来进行综合视频理解。该模型的关键设计是模态增强训练,它通过集成专门设计的模态特定标记来有选择地激活适当的视觉和 / 或听觉编码器。此机制对于实现端到端的多模态视频数据联合训练至关重要。实验证明,Audio-Visual LLM 在各种视频理解任务中取得了令人印象深刻的零样本结果。