本研究通过建立基于 BERT 模型的视觉 - 语言联合模型学习高级特征,提出了一种在无显式监督下学习高级特征的方法,并将其应用于多项任务,如动作分类和视频字幕生成等,取得了优越的成绩。
Apr, 2019
本文提出了一种利用实体感知和动作感知的转换器,通过文本实体及动作查询逐步地定位视频中的动作定位。实验表明,相比于现有方法,我们的方法在动作定位的精度上具有优势。
May, 2022
该论文提出了一种基于回归模型的方法,使用文本查询中的语义短语提取中间特征,以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互,通过在多个层面上从局部到全局利用上下文信息,有效地预测目标时间区间。实验证明,该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。
Apr, 2020
本文提出了一种基于文本的视频分割方法,通过引入一个新的演员和动作的模块化网络,解决了语义不对称问题,同时提出了时间提案聚合机制,获得了单帧分割和全视频分割的最先进性能。
Nov, 2020
本文介绍了一种基于 BERT 的模型 MetricBERT,该模型通过学习嵌入文本并同时遵循传统的掩码语言任务,以在定义明确的相似度度量下进行。我们主要关注于推荐中的学习相似性的下游任务,表明 MetricBERT 在超越其他最先进的替代方法并取得显著优势方面出色地表现。此外,我们还发布了一个由领域专家制作的视频游戏描述数据集以及测试集的相似性注释。
Aug, 2022
EmBERT 是一种基于 transformer 的模型,具有语言指导的目的完成能力。它是第一个能够成功处理 ALFRED 的历史记录、多模态的长时间跨度的 transformer 模型,同时也是第一个在 ALFRED 中使用对象导航目标的模型。
Aug, 2021
本研究提出了一种文本 - 视频本地化预文本任务,以实现细粒度的时间和语义对齐,从而让训练模型能够准确感知给定文本描述的视频时间边界,并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。
Jan, 2023
本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT,用于图像 - 文本联合嵌入,该模型基于 Transformer,可以将不同的模态作为输入,并建模它们之间的关系。通过多阶段的预训练策略,可以提高预训练质量,最终在图像检索和文本检索任务上获得了新的最先进结果。
Jan, 2020
本研究基于框架级模型、BERT 模型以及测试时增强等方式,在第三届 YouTube-8M 视频理解比赛中,针对标签的本质出现时间对视频级标签进行了定位,并在 4M 的训练视频级数据和 237K 的注释视频段级数据上进行了预训练和微调,使模型在私人测试视频段数据上取得了 0.7871 的 MAP@100K,排名第 9 个。
Dec, 2019
该研究提出了一种基于深度学习的 Activity Graph Transformer 模型,可以对视频进行端到端分析,精确定位和识别视频内的特定事件活动,并通过非线性图推理方法捕获视频内事件之间的复杂时间结构。实验结果显示此方法在三个具有挑战性的数据集上均优于当前领先的方法。
Jan, 2021