Mar, 2024

AVicuna: 基于交错器和上下文边界对齐的音视频 LLM 用于时间参考对话

TL;DR通过引入包括超过 114,000 个未修剪视频的 PU-VALOR 以及具有精确时间标记的 AVicuna 框架和 A5-222K 数据集,我们研究了 Temporal Referential Dialogue,特别是在未修剪视频中,AVicuna 在各种音频视觉视频理解任务上取得了最先进的性能,并进一步研究了插入音频视觉输入的最佳插值率以在音频视觉事件密集定位任务上实现最大化性能。