电影描述
本论文旨在提出一种将电影自动转化为文字形式的音频描述(AD)模型,该模型利用预训练模型,只训练桥接两个模型的映射网络来生成高质量的电影 AD,解决电影 AD 依赖于上下文和训练数据有限等问题,并在电影 AD 任务上取得强劲的结果。
Mar, 2023
介绍了一个利用 GPT-4V(视觉)的自动化音频描述生成流程,通过使用现成组件实现,不需要额外训练,生成符合自然语言音频描述生产标准的音频描述,同时通过基于跟踪的字符识别模块在帧间保持上下文一致的角色信息,在 MAD 数据集上表现与基于学习的方法相当,CIDEr 得分为 20.5。
May, 2024
本文提出了一个新的数据集 “Movie Description Dataset”,其中包括对于 72 部高清电影的超过 54,000 个句子和视频片段的平行语料库,此外,还比较了 DVS 和电影脚本这两种不同类型的电影描述。该数据集可用于基于计算机视觉和计算语言学的视频描述生成算法的性能评估。
Jan, 2015
通过使用预训练的基础模型和统一的框架,我们提出了 Uni-AD 方法,以交错的多模态顺序作为输入生成音频描述,该方法通过将视频特征映射到文本特征空间以实现不同模态特征的更好对齐,并引入角色细化模块识别在视频上下文中发挥更重要作用的主要角色,同时结合上下文信息和对比损失进一步增强了生成的音频描述的平滑性和连贯性,实验结果表明 Uni-AD 在音频描述生成上取得了最先进的性能。
Mar, 2024
生成电影的音频描述(AD)是一项具有挑战性的任务,需要对细粒度的视觉理解和角色及其名称有意识。本文提出了两种构建与视频数据对齐的 AD 数据集的方法,并使用这些数据集构建了训练和评估数据集。我们还开发了基于 Q-former 的架构,它使用冻结的预训练视觉编码器和大型语言模型,输入原始视频并生成 AD。此外,我们还提供了新的评估指标来衡量 AD 质量,这些评估指标与人类表现相匹配,从而改进了 AD 生成的技术水平。
Apr, 2024
该论文提出了 MAD 基准测试,通过爬取和对齐可用的主流电影音频描述,包含超过 384,000 个自然语言句子,展示出视频语言基础数据集中存在的偏差的显着减少,使短暂的时间点可以准确地与长达三个小时的视频相匹配。
Dec, 2021
为了解决电影音频描述中存在的挑战,如适应对话存在的间隙、通过角色名称引用以及整体上帮助理解剧情,我们开发了一个新模型来自动生成电影音频描述,使用了帧的 CLIP 视觉特征、演职员表和对话的时间位置,并解决了 ' 谁'、' 何时 ' 和' 什么 ' 三个问题,即通过引入角色库实现更好地命名、通过对时间间隔及其相邻内容的视觉特征进行模型选择以决定是否生成音频描述,以及通过视觉特征的交叉注意力在此任务中实现了一个新的视觉 - 语言模型,展示了与先前架构相比在音频描述生成方面的改进。
Oct, 2023
本文研究使用图像及视频描述辅助盲人及人机交互的应用。通过使用预训练的对象分类器 CNNs 以及 LSTMs,学习生成描述的算法,并在 MPII-MD 数据集上获得了目前最佳性能。
Jun, 2015
对类似但略有不同的音频剪辑进行语义差异描述的音频差异字幕(ADC)是一项新的扩展任务,通过比较一对音频剪辑和强调潜在空间中的差异以提取差异的交叉注意力集中型变压器编码器来解决常规音频字幕生成类似标题的问题。
Aug, 2023
本文提出了大规模屏幕内容数据集(LSCD),其中包含 714 个源序列,用以填补社区在屏幕内容视频压缩方面的空白,并加速对这种特殊类型视频的研究。同时,本文还提供了包含传统编解码器和基于学习的方法性能的基准。
Aug, 2023