视频文本对齐的强基准
本文提出了一种方法来自动对齐视频和文本,并使用向量特征将其视为时间分配问题,最终得出整数解决方案,这在对齐视频与符号标签方面取得了显着的改进并在具有相关文本说明的挑战性数据集上进行了评估。
May, 2015
本文提出了一种时间对齐网络,能够对长期视频序列和关联文本句子进行处理,使用了一种新颖的共同训练方法来减少噪音并训练原始指导视频,应用于多个视频理解任务,包括文本 - 视频检索和弱监督视频动作分割等,获得了更好的性能。
Apr, 2022
本文提出了一种基于 transformer,支持弱监督下视频理解的方法,主要包括多粒度损失函数、伪造的帧 - 句对应关系等。在视频序列验证和文本匹配实验中表现良好。
Mar, 2023
提出一种用于对手语视频中的异步字幕进行时间对齐的 Transformer 体系结构,使用 BERT 字幕嵌入和 CNN 视频表示来对两个信号进行编码,并通过一系列的注意层进行交互,输出逐帧预测,从而大幅改善了现有的对齐基线。
May, 2021
该论文提出了一种基于回归模型的方法,使用文本查询中的语义短语提取中间特征,以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互,通过在多个层面上从局部到全局利用上下文信息,有效地预测目标时间区间。实验证明,该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。
Apr, 2020
本研究提出了一种文本 - 视频本地化预文本任务,以实现细粒度的时间和语义对齐,从而让训练模型能够准确感知给定文本描述的视频时间边界,并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。
Jan, 2023
利用大型语言模型从自动语音识别摘要中创建与视频对齐的细致视频描述,以达到大规模教学视频数据训练文本 - 视频模型的目的。这项工作应用于 HowTo100M 数据集的副标题,创建了一个新的大规模数据集 HowToCaption,其结果不仅显著改善了许多不同基准数据集上的文本 - 视频检索性能,还将文本叙述与音频相分离,在文本 - 视频 - 音频任务中提升了性能。
Oct, 2023
我们提出了一种名为 INDENT 的模型,利用交叉注意力模型和句子的时间顺序先验信息学习语音嵌入,从而在长篇音频记录中根据文本查询定位问题的位置。该模型在文本查询中相较于基于启发式方法的模型显著提高了有效性(R-avg 提高了约 3%),并且演示了使用印度语音的噪声 ASR 在替代语音方面取得更好结果的情况。我们的模型只使用了印地语数据进行训练,但可以涵盖所有由(语义上)共享文本空间支持的语言,在 11 种印度语言上进行了实证研究。
Oct, 2023
通过 Descriptive Speech-Text Alignment 方法,本研究提出了一种新型的语音语言模型,可以解释和生成全面的自然语言描述,从而促进对语音的语言和非语言特征的理解,并在 Dynamic-SUPERB 基准测试中展现出卓越性能,尤其是在未见过的任务上的泛化能力,同时发现对齐模型具有零样本指令跟随能力,无需显式调整语音指令,这些发现突显了通过加入丰富的描述性语音字幕来改变指令跟随语音语言模型的潜力。
Jun, 2024
本文介绍了利用图像字幕预训练高质量视频模型的方法,并证明了以图像字幕代替自动语音识别字幕的预训练方法更有效,使用图像和视频一起进行预训练比单独使用一种模式的预训练能显著提高网络性能,并且这种方法可以与现有的预训练或数据挖掘方法相辅相成。
Apr, 2023