Oct, 2023

多模态大型语言模型的细粒度音频视觉联合表示

TL;DR通过提出细粒度的音视频联合表示学习框架 (FAVOR),同时感知音频和视觉输入流中的语音、音频事件以及图像或视频,利用因果关注模块增强音视频帧之间的因果关系捕捉,在音频、语音和图像任务上取得了有竞争力的单模态性能,并在需要细粒度信息或时间因果推理的视频问答任务上实现了超过 20% 的准确度改进,表现出了出色的视频理解和推理能力。