视频文字弱监督对齐

ICCVMay, 2015

Weakly-Supervised Alignment of Video With Text

Piotr Bojanowski, Rémi Lajugie, Edouard Grave, Francis Bach, Ivan Laptev...

TL;DR本文提出了一种方法来自动对齐视频和文本，并使用向量特征将其视为时间分配问题，最终得出整数解决方案，这在对齐视频与符号标签方面取得了显着的改进并在具有相关文本说明的挑战性数据集上进行了评估。

Abstract

Suppose that we are given a set of videos, along with natural language descriptions in the form of multiple sentences (e.g., manual annotations, movie scripts, sport summaries etc.), and that these sentences appear in the same temporal order as their visual counterparts. We propose in

video natural language alignment temporal assignment vectorial features

发现论文，激发创造

利用非对齐文本进行弱监督视频表示学习

本文提出了一种基于 transformer，支持弱监督下视频理解的方法，主要包括多粒度损失函数、伪造的帧 - 句对应关系等。在视频序列验证和文本匹配实验中表现良好。

Mar, 2023

视频文本对齐的强基准

通过建立一个简单而强大的基于 Transformer 的模型，本研究考虑了视频和文本在时间上的对齐问题，并通过考虑语音识别误差的减少、选择不同的视觉 - 文本骨干和将嘈杂的 ASR 转录转化成描述性步骤等关键因素，实现了在叙述对齐和步骤对应任务上明显超越现有技术的卓越性能。

Dec, 2023

从文本查询中弱监督的视频片段检索

本文提出了一种学习弱标签的方法来解决文本 - 视频片段检索问题，并使用基于文本引导的注意力机制学习视频中的相关片段，该方法在两个基准数据集上获得了与监督式学习方法相当的性能。

Apr, 2019

长时间视频的时间对齐网络

本文提出了一种时间对齐网络，能够对长期视频序列和关联文本句子进行处理，使用了一种新颖的共同训练方法来减少噪音并训练原始指导视频，应用于多个视频理解任务，包括文本 - 视频检索和弱监督视频动作分割等，获得了更好的性能。

Apr, 2022

无标记学习稳健视频同步

本文介绍一种可扩展和强健的非线性时间视频对齐方法，该方法利用了视频本身的本质，能够在没有手动标签的情况下对月份间隔的数据进行视频对齐，并能用于计算机图形学和视觉领域的广泛应用。

Oct, 2016

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023

T2VLAD：文本 - 视频检索的全局 - 局部序列对齐

本文主要设计了一种高效的全局 - 局部对齐方法，在共享的语义中心集合中，自适应地汇聚多模式视频序列和文本特征，并计算相同中心内的视频特征与文本特征之间的局部交叉模态相似性，从而实现了细致的局部比较，同时降低了交互成本。此外，还提出了一种全局对齐方法，并在三个标准的文本 - 视频检索基准测试中取得了一致的改进和领先的效果。

Apr, 2021

更加注重细节：视频中句子的弱监督时间根据地

本文研究了弱监督下的视频句子时间定位问题，提出了一个两阶段模型，通过多尺度滑动窗口形成时间片段的间隔性建议，和在特征空间进行粗细匹配定位，最终在 ActivityNet Captions 数据集和 Charades-STA 数据集上取得良好的表现。

Jan, 2020

利用语言引导的自监督视频摘要生成方法，考虑视频多样性的文本语义匹配

通过使用大型语言模型作为引导，本文提出了一种新颖的自监督视频摘要框架，通过生成视频帧的字幕，并将其合成为文本摘要，衡量帧字幕和文本摘要之间的语义距离，最终选择与文本摘要相似的帧来生成摘要视频。该方法在视频摘要任务中取得了有竞争力的结果，并为视频摘要领域开辟了新的道路。

May, 2024

通过文本到视频模型的调整实现多样和一致的音视频生成

生成多样化和逼真的视频，根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法，将音频基础表示映射到文本 - 视频生成模型所期望的输入表示，实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法，展示了生成的音频视频样本的显著语义多样性，并提出了一种新的评估度量（AV-Align）以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比，我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐，并且呈现更高的视觉质量和多样性。

Sep, 2023