AutoAD III：前传 -- 回到像素

CVPRApr, 2024

AutoAD III: The Prequel -- Back to the Pixels

Tengda Han, Max Bain, Arsha Nagrani, Gül Varol, Weidi Xie...

TL;DR生成电影的音频描述（AD）是一项具有挑战性的任务，需要对细粒度的视觉理解和角色及其名称有意识。本文提出了两种构建与视频数据对齐的 AD 数据集的方法，并使用这些数据集构建了训练和评估数据集。我们还开发了基于 Q-former 的架构，它使用冻结的预训练视觉编码器和大型语言模型，输入原始视频并生成 AD。此外，我们还提供了新的评估指标来衡量 AD 质量，这些评估指标与人类表现相匹配，从而改进了 AD 生成的技术水平。

Abstract

Generating audio description (AD) for movies is a challenging task that requires fine-grained visual understanding and an awareness of the characters and their names. Currently, visual language models for

audio description visual understanding ad generation ad datasets evaluation metrics

发现论文，激发创造

AutoAD: 带上下文的电影描述

本论文旨在提出一种将电影自动转化为文字形式的音频描述（AD）模型，该模型利用预训练模型，只训练桥接两个模型的映射网络来生成高质量的电影 AD，解决电影 AD 依赖于上下文和训练数据有限等问题，并在电影 AD 任务上取得强劲的结果。

Mar, 2023

自动广告 II：续集 -- 电影音频描述中的受众、时间和内容

为了解决电影音频描述中存在的挑战，如适应对话存在的间隙、通过角色名称引用以及整体上帮助理解剧情，我们开发了一个新模型来自动生成电影音频描述，使用了帧的 CLIP 视觉特征、演职员表和对话的时间位置，并解决了 ' 谁'、' 何时 ' 和' 什么 ' 三个问题，即通过引入角色库实现更好地命名、通过对时间间隔及其相邻内容的视觉特征进行模型选择以决定是否生成音频描述，以及通过视觉特征的交叉注意力在此任务中实现了一个新的视觉 - 语言模型，展示了与先前架构相比在音频描述生成方面的改进。

Oct, 2023

上下文化的 AD 叙述与交错的多模式序列

通过使用预训练的基础模型和统一的框架，我们提出了 Uni-AD 方法，以交错的多模态顺序作为输入生成音频描述，该方法通过将视频特征映射到文本特征空间以实现不同模态特征的更好对齐，并引入角色细化模块识别在视频上下文中发挥更重要作用的主要角色，同时结合上下文信息和对比损失进一步增强了生成的音频描述的平滑性和连贯性，实验结果表明 Uni-AD 在音频描述生成上取得了最先进的性能。

Mar, 2024

LLM-AD: 基于大型语言模型的音频描述系统

介绍了一个利用 GPT-4V（视觉）的自动化音频描述生成流程，通过使用现成组件实现，不需要额外训练，生成符合自然语言音频描述生产标准的音频描述，同时通过基于跟踪的字符识别模块在帧间保持上下文一致的角色信息，在 MAD 数据集上表现与基于学习的方法相当，CIDEr 得分为 20.5。

May, 2024

电影描述

本文提出了一个新的数据集，用于从音频注释中生成视频描述。该数据集包含 118,114 个句子和来自 202 部电影的视频剪辑。对比于脚本描述，我们发现 Audio Description 更加直观且准确的描述了电影中所呈现的内容。此外，我们呈现和比较了几个参加 “理解视频和大规模电影描述挑战” 的团队的结果，该挑战在 ICCV 2015 中举行。

May, 2016

细粒度可听视频描述

本文介绍一项新的音频视觉语言建模任务：细粒度可听视频描述（FAVD），旨在为给定的听觉视频提供详细的文本描述，包括每个物体的外观和空间位置，移动物体的动作以及视频中的声音，本文还构建了第一个 fine-grained audible video description benchmark（FAVDBench），并提出了两个新的度量标准。我们使用先前的视频字幕模型加入了一个附加的音频分支的 audio-visual-language transformer 对该任务进行了初步的尝试，并证明了 fine-grained video descriptions 可帮助创建比字幕更复杂的视频。

Mar, 2023

MAD: 电影音频描述视频语言基础数据集

该论文提出了 MAD 基准测试，通过爬取和对齐可用的主流电影音频描述，包含超过 384,000 个自然语言句子，展示出视频语言基础数据集中存在的偏差的显着减少，使短暂的时间点可以准确地与长达三个小时的视频相匹配。

Dec, 2021

基于语音驱动的用户生成内容配音：风格感知半参数合成

本文研究了一种音频驱动的配音方法，适用于用户生成的内容制作。通过引入新的风格翻译网络、半参量化视频渲染器和时间正则化，该方法可以准确保留不同的说话风格，并且相较于现有方法具有更低的训练数据和训练时间需求，以及更快的测试速度。

Aug, 2023

Ada-DQA：自适应多样质量感知特征获取用于视频质量评估

提出了一种 Ada-DQA 框架，通过利用多样的预训练模型来捕获所生成的与质量相关的特征，以及使用有标签的质量分数和学习的质量表示作为辅助监督信息，以引导相对较轻的 VQA 模型的训练，从而在知识蒸馏的方式下大大减少推理期间的计算成本。

Aug, 2023

自主驾驶的广义预测模型

本文介绍了自动驾驶学科中第一个大规模视频预测模型。通过从网络获取大量数据并与多样且高质量的文本描述配对，我们消除了高成本数据收集的限制并增强了模型的泛化能力。该数据集积累了超过 2000 小时的行驶视频，涵盖了全球各地不同的气候条件和交通场景。我们的模型名为 GenAD，并继承了最近潜变扩散模型的优点，利用新颖的时间推理块处理行驶场景中具有挑战性的动态。我们展示了它可以以零 - shot 方式泛化到各种未见过的行驶数据集，超过了一般或专门针对行车的视频预测模型。此外，GenAD 可以适应动作条件化预测模型或运动规划器，具有在实际行驶应用中巨大潜力。

Mar, 2024