ActBERT: 学习全局 - 局部的视频文本表示

Nov, 2020

ActBERT: 学习全局 - 局部的视频文本表示

ActBERT: Learning Global-Local Video-Text Representations

Linchao Zhu, Yi Yang

TL;DR本文介绍了 ActBERT 模型及其应用，它采用自监督学习方法从无标签的数据中提取语音和视频的联合表示，并在多项视频和语言任务中表现出卓越的性能。

Abstract

In this paper, we introduce actbert for self-supervised learning of joint video-text representations from unlabeled data. First, we leverage global action information to catalyze the mutual interactions between l

actbert self-supervised learning joint video-text representations entangled transformer block video-and language tasks

发现论文，激发创造

VideoBERT: 视频与语言表征学习的联合模型

本研究通过建立基于 BERT 模型的视觉 - 语言联合模型学习高级特征，提出了一种在无显式监督下学习高级特征的方法，并将其应用于多项任务，如动作分类和视频字幕生成等，取得了优越的成绩。

Apr, 2019

面向语言驱动视频动作定位的实体感知和动作感知 Transformer

本文提出了一种利用实体感知和动作感知的转换器，通过文本实体及动作查询逐步地定位视频中的动作定位。实验表明，相比于现有方法，我们的方法在动作定位的精度上具有优势。

May, 2022

局部 - 全局视频文本交互的时间对齐

该论文提出了一种基于回归模型的方法，使用文本查询中的语义短语提取中间特征，以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互，通过在多个层面上从局部到全局利用上下文信息，有效地预测目标时间区间。实验证明，该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。

Apr, 2020

文本视频分割的演员和行为模块化网络

本文提出了一种基于文本的视频分割方法，通过引入一个新的演员和动作的模块化网络，解决了语义不对称问题，同时提出了时间提案聚合机制，获得了单帧分割和全视频分割的最先进性能。

Nov, 2020

MetricBERT：通过自监督三元组训练学习文本表征

本文介绍了一种基于 BERT 的模型 MetricBERT，该模型通过学习嵌入文本并同时遵循传统的掩码语言任务，以在定义明确的相似度度量下进行。我们主要关注于推荐中的学习相似性的下游任务，表明 MetricBERT 在超越其他最先进的替代方法并取得显著优势方面出色地表现。此外，我们还发布了一个由领域专家制作的视频游戏描述数据集以及测试集的相似性注释。

Aug, 2022

具身 BERT：一种用于具身、语言引导的视觉任务完成的 Transformer 模型

EmBERT 是一种基于 transformer 的模型，具有语言指导的目的完成能力。它是第一个能够成功处理 ALFRED 的历史记录、多模态的长时间跨度的 transformer 模型，同时也是第一个在 ALFRED 中使用对象导航目标的模型。

Aug, 2021

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023

ImageBERT：利用大规模弱监督图像 - 文本数据的跨模态预训练

本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT，用于图像 - 文本联合嵌入，该模型基于 Transformer，可以将不同的模态作为输入，并建模它们之间的关系。通过多阶段的预训练策略，可以提高预训练质量，最终在图像检索和文本检索任务上获得了新的最先进结果。

Jan, 2020

大规模视频片段分类的 BERT 及测试时间增强

本研究基于框架级模型、BERT 模型以及测试时增强等方式，在第三届 YouTube-8M 视频理解比赛中，针对标签的本质出现时间对视频级标签进行了定位，并在 4M 的训练视频级数据和 237K 的注释视频段级数据上进行了预训练和微调，使模型在私人测试视频段数据上取得了 0.7871 的 MAP@100K，排名第 9 个。

Dec, 2019

时空动作定位的活动图变换器

该研究提出了一种基于深度学习的 Activity Graph Transformer 模型，可以对视频进行端到端分析，精确定位和识别视频内的特定事件活动，并通过非线性图推理方法捕获视频内事件之间的复杂时间结构。实验结果显示此方法在三个具有挑战性的数据集上均优于当前领先的方法。

Jan, 2021