CVPRApr, 2024

AutoAD III:前传 -- 回到像素

TL;DR生成电影的音频描述(AD)是一项具有挑战性的任务,需要对细粒度的视觉理解和角色及其名称有意识。本文提出了两种构建与视频数据对齐的 AD 数据集的方法,并使用这些数据集构建了训练和评估数据集。我们还开发了基于 Q-former 的架构,它使用冻结的预训练视觉编码器和大型语言模型,输入原始视频并生成 AD。此外,我们还提供了新的评估指标来衡量 AD 质量,这些评估指标与人类表现相匹配,从而改进了 AD 生成的技术水平。