通过建立一个简单而强大的基于 Transformer 的模型,本研究考虑了视频和文本在时间上的对齐问题,并通过考虑语音识别误差的减少、选择不同的视觉 - 文本骨干和将嘈杂的 ASR 转录转化成描述性步骤等关键因素,实现了在叙述对齐和步骤对应任务上明显超越现有技术的卓越性能。
Dec, 2023
本文提出了一种方法来自动对齐视频和文本,并使用向量特征将其视为时间分配问题,最终得出整数解决方案,这在对齐视频与符号标签方面取得了显着的改进并在具有相关文本说明的挑战性数据集上进行了评估。
May, 2015
本文提出了一种 Hierarchical Alignment Network 框架,通过把视频和文本分解成三个层次,即事件 - 动作 - 实体水平,并在个体 - 局部 - 全局层次上构建层次表示,捕捉视频和文本之间的从精细到粗略的对应关系,从而最大化利用三个语义层次的互补信息,以实现视频文本检索和匹配任务的高效和精度。实验结果表明,所提出的框架在两个公共数据集上优于其他最先进的方法,证明了层次表示和匹配的有效性。
Jul, 2021
本文提出了一种基于 transformer,支持弱监督下视频理解的方法,主要包括多粒度损失函数、伪造的帧 - 句对应关系等。在视频序列验证和文本匹配实验中表现良好。
Mar, 2023
我们提出了 VidLA,这是一种用于大规模视频 - 语言对齐的方法,通过在不同时间分辨率上使用一组数据令牌,以层次化的方式捕捉短程和长程的时间依赖关系,并通过简单的双塔架构,使用预训练的图像 - 文本基础模型来提高最终性能。此外,我们利用最近的 LLMs 构建了迄今为止规模最大的视频 - 语言数据集,包含不同长度的视频片段,以帮助在不同时间尺度下提取更好的表示。实验证明,我们的方法在多个检索基准上超过了现有的最先进方法,特别是在较长的视频上,并在分类基准上具有竞争力。
Mar, 2024
该论文提出了一种对全视频和段落进行显式比较的对比学习框架 TempCLR,通过使用动态时间规整来计算句子 - 剪辑对的最小累积成本作为序列级距离,它可以探索时间动态,并在视频检索、行动步骤定位和少量动作识别等任务中实现了一致的性能提升。
Dec, 2022
本研究提出了一种文本 - 视频本地化预文本任务,以实现细粒度的时间和语义对齐,从而让训练模型能够准确感知给定文本描述的视频时间边界,并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。
Jan, 2023
本文介绍一种可扩展和强健的非线性时间视频对齐方法,该方法利用了视频本身的本质,能够在没有手动标签的情况下对月份间隔的数据进行视频对齐,并能用于计算机图形学和视觉领域的广泛应用。
Oct, 2016
本论文提出 Moment Alignment Network (MAN) 框架,将候选时刻编码和时间结构推理统一到单次前向网络中。MAN 自然地分配候选时刻表示与语言语义对齐,通过结构化图形调整网络对时刻间的复杂关系进行建模和学习。在 DiDeMo 和 Charades-STA 数据集上,实验结果表明本文所提出的方法显著优于现有的同类方法。
Nov, 2018
本文提出了一种基于神经网络的、端到端的异构数据(视频到文本)对齐方法,采用长短时记忆(LSTM)模块栈移动数据进行对齐操作,避免了已有方法中的局限性和缺陷,并在半合成和实际数据上取得了领先于现有技术的表现。
Feb, 2018