口述时刻：从视频描述中学习联合音频视觉表示

CVPRMay, 2021

口述时刻：从视频描述中学习联合音频视觉表示

Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions

Mathew Monfort, SouYoung Jin, Alexander Liu, David Harwath, Rogerio Feris...

TL;DR本文介绍了一种新的数据集，名为 ‘Spoken Moments’，共收集了 500k 由语音记录的视频描述并提出一种名为 AMM 的对比学习方法，用于视频标注和检索任务，并通过评估得到了较好的实验结果。

Abstract

When people observe events, they are able to abstract key information and build concise summaries of what is happening. These summaries include contextual and semantic information describing the important high-level details (what, where, who and how) of the observed event and exclude background information that is deemed unimportant to the observer. With thi

spoken moments dataset captioning videos adaptive mean margin approach contrastive learning video understanding

发现论文，激发创造

时刻数据集：百万事件视频用于事件理解

Moments in Time 数据集是一个包含 100 万短视频的大型人工注释集合，主要用于研究动态事件的空间 - 音频 - 时间动态建模，包括 339 个类别的活动标注，可作为发展至人类日常处理的复杂性和抽象推理水平的模型的新挑战。

Jan, 2018

音视时刻：一个大规模标注的音视行动数据集

我们提供了一个大规模的音频视觉动作事件数据集 (AVMIT)，它包含了被 11 名受训者独立评估的 57,177 个音频视觉视频的标注结果。这个数据集还附带了预先计算好的音频和视觉特征嵌入，并基于此进行了音频视觉事件识别性能的改进研究。通过在 6 个递归神经网络 (RNNs) 上进行训练和测试，我们发现专门使用音频视觉事件进行训练可以显著提高识别性能。我们有理由相信，这个新标注的 AVMIT 数据集将成为研究和比较实验的有价值资源，特别是在涉及到音频视觉对应关系的研究问题中。

Aug, 2023

HowToCaption: 规模化促使 LLMs 转化视频注释

利用大型语言模型从自动语音识别摘要中创建与视频对齐的细致视频描述，以达到大规模教学视频数据训练文本 - 视频模型的目的。这项工作应用于 HowTo100M 数据集的副标题，创建了一个新的大规模数据集 HowToCaption，其结果不仅显著改善了许多不同基准数据集上的文本 - 视频检索性能，还将文本叙述与音频相分离，在文本 - 视频 - 音频任务中提升了性能。

Oct, 2023

观看、听取与叙述：多模态弱监督密集事件字幕生成

本文研究了多模态学习中的音频 - 视觉相关性，并使用该方法在视频中探讨弱监督下的活动密集事件字幕问题，通过实验证明了提出的多模态方法优于单模态方法，同时验证了特定功能表示和体系结构设计的选择。

Sep, 2019

语音描述图像和视频的转录增强联合嵌入

本研究提出了一种有效的方法，通过结合图像、口头和文本叙述三种同时模态的特征来训练唯一的嵌入表示，实验证明加入人工生成的文本转录可以提升训练程序，在任务如图像和语音的检索中取得了更好的嵌入表示的性能。

Jun, 2020

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

多模态密集视频字幕

本文提出了一种新的密集视频字幕方法，它能够利用任何数量的多模态信息来描述事件，并使用自动语音识别系统获得音频和语音模态的文本描述，在将其视为单独的输入与视频帧和相应的音轨一起使用，并利用最近提出的 Transformer 体系结构将多模态输入数据转换为文本描述的机器翻译问题。作者在 ActivityNet Captions 数据集上测试了他们的模型，并进行了深入的分析。

Mar, 2020

SPOT！重新审视视频语言模型用于事件理解

利用网络爬取的大规模视频 - 文本对数据作为弱监督，视频理解模型的能力在事件层面的差异中辨别和理解细粒度事件方面仍存在问题，通过提出 SPOT Prober 方法并进行实验证明，通过将操作后的事件描述插入作为难负样本能有效增强模型对事件理解的能力。

Nov, 2023

从图像说明中学习音视频模态

该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中，从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题，并创建了一个大规模音频 - 视频字幕数据集，使得使用这个数据集能够训练出性能优异的多模态转换模型，并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能，并且能够实现文本 - 音频预训练，并在音频检索任务中达到最先进的结果。

Apr, 2022

由音频叙述引导的弱监督行为检测

提出了一种基于多模态学习和叙述监督的视频检测模型，可以从嘈杂的音频叙述中学习动作检测，从而降低标注的费用。

May, 2022