电影描述

May, 2016

Movie Description

Anna Rohrbach, Atousa Torabi, Marcus Rohrbach, Niket Tandon, Christopher Pal...

TL;DR本文提出了一个新的数据集，用于从音频注释中生成视频描述。该数据集包含 118,114 个句子和来自 202 部电影的视频剪辑。对比于脚本描述，我们发现 Audio Description 更加直观且准确的描述了电影中所呈现的内容。此外，我们呈现和比较了几个参加 “理解视频和大规模电影描述挑战” 的团队的结果，该挑战在 ICCV 2015 中举行。

Abstract

audio description (AD) provides linguistic descriptions of movies and allows visually impaired people to follow a movie along with their peers. Such descriptions are by design mainly visual and thus naturally form an interesting data source for computer vision and →

audio description computational linguistics large scale movie description challenge (lsmdc)video descriptions movie production

发现论文，激发创造

AutoAD: 带上下文的电影描述

本论文旨在提出一种将电影自动转化为文字形式的音频描述（AD）模型，该模型利用预训练模型，只训练桥接两个模型的映射网络来生成高质量的电影 AD，解决电影 AD 依赖于上下文和训练数据有限等问题，并在电影 AD 任务上取得强劲的结果。

Mar, 2023

LLM-AD: 基于大型语言模型的音频描述系统

介绍了一个利用 GPT-4V（视觉）的自动化音频描述生成流程，通过使用现成组件实现，不需要额外训练，生成符合自然语言音频描述生产标准的音频描述，同时通过基于跟踪的字符识别模块在帧间保持上下文一致的角色信息，在 MAD 数据集上表现与基于学习的方法相当，CIDEr 得分为 20.5。

May, 2024

电影描述数据集

本文提出了一个新的数据集 “Movie Description Dataset”，其中包括对于 72 部高清电影的超过 54,000 个句子和视频片段的平行语料库，此外，还比较了 DVS 和电影脚本这两种不同类型的电影描述。该数据集可用于基于计算机视觉和计算语言学的视频描述生成算法的性能评估。

Jan, 2015

上下文化的 AD 叙述与交错的多模式序列

通过使用预训练的基础模型和统一的框架，我们提出了 Uni-AD 方法，以交错的多模态顺序作为输入生成音频描述，该方法通过将视频特征映射到文本特征空间以实现不同模态特征的更好对齐，并引入角色细化模块识别在视频上下文中发挥更重要作用的主要角色，同时结合上下文信息和对比损失进一步增强了生成的音频描述的平滑性和连贯性，实验结果表明 Uni-AD 在音频描述生成上取得了最先进的性能。

Mar, 2024

AutoAD III：前传 -- 回到像素

生成电影的音频描述（AD）是一项具有挑战性的任务，需要对细粒度的视觉理解和角色及其名称有意识。本文提出了两种构建与视频数据对齐的 AD 数据集的方法，并使用这些数据集构建了训练和评估数据集。我们还开发了基于 Q-former 的架构，它使用冻结的预训练视觉编码器和大型语言模型，输入原始视频并生成 AD。此外，我们还提供了新的评估指标来衡量 AD 质量，这些评估指标与人类表现相匹配，从而改进了 AD 生成的技术水平。

Apr, 2024

MAD: 电影音频描述视频语言基础数据集

该论文提出了 MAD 基准测试，通过爬取和对齐可用的主流电影音频描述，包含超过 384,000 个自然语言句子，展示出视频语言基础数据集中存在的偏差的显着减少，使短暂的时间点可以准确地与长达三个小时的视频相匹配。

Dec, 2021

自动广告 II：续集 -- 电影音频描述中的受众、时间和内容

为了解决电影音频描述中存在的挑战，如适应对话存在的间隙、通过角色名称引用以及整体上帮助理解剧情，我们开发了一个新模型来自动生成电影音频描述，使用了帧的 CLIP 视觉特征、演职员表和对话的时间位置，并解决了 ' 谁'、' 何时 ' 和' 什么 ' 三个问题，即通过引入角色库实现更好地命名、通过对时间间隔及其相邻内容的视觉特征进行模型选择以决定是否生成音频描述，以及通过视觉特征的交叉注意力在此任务中实现了一个新的视觉 - 语言模型，展示了与先前架构相比在音频描述生成方面的改进。

Oct, 2023

电影描述的长短故事

本文研究使用图像及视频描述辅助盲人及人机交互的应用。通过使用预训练的对象分类器 CNNs 以及 LSTMs，学习生成描述的算法，并在 MPII-MD 数据集上获得了目前最佳性能。

Jun, 2015

利用相似性差异解耦的音频差异字幕生成

对类似但略有不同的音频剪辑进行语义差异描述的音频差异字幕（ADC）是一项新的扩展任务，通过比较一对音频剪辑和强调潜在空间中的差异以提取差异的交叉注意力集中型变压器编码器来解决常规音频字幕生成类似标题的问题。

Aug, 2023

LSCD：用于视频压缩的大规模屏幕内容数据集

本文提出了大规模屏幕内容数据集（LSCD），其中包含 714 个源序列，用以填补社区在屏幕内容视频压缩方面的空白，并加速对这种特殊类型视频的研究。同时，本文还提供了包含传统编解码器和基于学习的方法性能的基准。

Aug, 2023