ECCVJul, 2024

Meerkat: 音视大型语言模型在时空中的基线

TL;DRMeerkat 是一个具有对图像和音频进行空间和时间精细理解的音频 - 视觉 LLM 模型,通过优化传输和交叉注意模块,能够处理诸如音频引用图像定位、图像引导音频时间定位和音频 - 视觉事实核查等挑战性任务,在包含 300 万数据样本的 AVFIT 数据集上取得了相对改进高达 37.12% 的最新性能。