使用对比双向变换器学习视频表示

Jun, 2019

使用对比双向变换器学习视频表示

Learning Video Representations using Contrastive Bidirectional Transformer

Chen Sun, Fabien Baradel, Kevin Murphy, Cordelia Schmid

TL;DR本文提出了一种自监督学习方法，用于视频特征，与现有方法相比在下游任务中表现显著提高，通过将文本序列的 BERT 模型扩展到实值特征向量序列的情况，以噪声对比估计取代 softma 损失函数，同时展示了如何从可视特征序列和 ASR 派生的词序列中学习表示，并且表明这样的跨模态训练可以进一步提高性能。

Abstract

This paper proposes a self-supervised learning approach for video features that results in significantly improved performance on downstream tasks

self-supervised learning video features bert model cross-modal training downstream tasks

发现论文，激发创造

自我引导的对比学习方法用于 BERT 句子表示

本文提出使用对比学习的方法，通过自我指导来改善 BERT 的句子表示质量，并将其应用于句子表示学习中。实验证明，与竞争对手的基线相比，我们的方法在广泛的句子相关任务上更加有效，并且在推理时效率高且鲁棒性强。

Jun, 2021

VideoBERT: 视频与语言表征学习的联合模型

本研究通过建立基于 BERT 模型的视觉 - 语言联合模型学习高级特征，提出了一种在无显式监督下学习高级特征的方法，并将其应用于多项任务，如动作分类和视频字幕生成等，取得了优越的成绩。

Apr, 2019

自监督共同训练用于视频表示学习

本文提出以自监督为主的视频特征学习方法，其中利用语义正例和共同训练提高了训练效果，同时也获得了在动作识别等任务上与其他自监督方式相当的性能。

Oct, 2020

基于双向 Transformer 的对比学习用于序列推荐

本文提出了一种新框架，使用双向 Transformer 进行对比学习，针对顺序推荐中用户行为不是严格的从左到右顺序这一问题进行改进，同时采用滑动窗口技术，结合 Cloze 任务掩码和 Dropout 掩码来生成高质量正样本，并进行多对比学习，通过实验结果表明，相较于传统单一对比学习，该框架表现更优越。

Aug, 2022

视频理解作为机器翻译

本文介绍了在大规模多模式视频数据集上的自我监督学习的发展；提出了一种基于生成模型的方法，以翻译问题的形式解决了这一问题，并将其应用于多种下游视频理解任务中。结果表明，本方法在性能上优于基于对比度度量学习的方法。

Jun, 2020

视频 Transformer 的长短时对比学习

本文提出了一种叫做 “长短时对比学习（LSTCL）” 的学习程序，可以让视频变压器模型在预测来自更长的时间范围内捕获的时序上下文的同时，学习一个有效的剪辑级表示，并在多项视频基准测试上取得了有竞争力的表现，成为有监督基于图像的预训练的有力替代方案。

Jun, 2021

用于多通道视频 - 语言检索的预训练对比模型的快速适应

探索多模态检索中利用预训练对比模型和文本符号融合信息的最佳方式，并发现用离散文本符号表示视频的方法取得最佳效果。

Jun, 2022

SupCL-Seq: 下游优化序列表示的有监督对比学习

本文介绍了 SupCL-Seq，这是一种扩展了计算机视觉中的监督对比学习方法，应用于优化自然语言处理中的序列表示。通过改变标准 Transformer 架构中的 dropout 掩码概率，在每个表示（锚）上生成增强的变形视图，并使用监督对比损失来最大化系统将相似样本（例如，锚和它们的变形视图）拉拢在一起并将属于其它类别的样本推开的能力。相较于标准 BERTbase 模型，在 GLUE 基准测试中的许多序列分类任务中取得了显著提升，包括 CoLA 上的 6％、MRPC 上的 5.4％、RTE 上的 4.7％和 STSB 上的 2.6％，特别是在非语义任务中，相对于自监督对比学习表示也表现出了一致增长。最后，我们展示了这些增益并不仅仅是由于数据增广，而是由于下游优化的序列表示。

Sep, 2021

跨架构自监督视频表示学习

本文提出一种新的跨架构对比学习（CACL）框架，用于自监督视频表示学习，使用 3D CNN 和视频变换器并行生成对比学习中多样化的正对，同时引入了一个具有明确视频序列编辑距离预测能力的时间自监督学习模块，用于学习强大的时序性表示，在 UCF101 和 HMDB51 数据集上表现卓越，超越 VideoMoCo 和 MoCo + BE 等现有技术。

May, 2022

示范对比学习

该论文提出了一个从多个视角捕捉的无标注视频演示中学习视觉表示的框架，优化了最近提出的自监督学习算法，应用对比学习来增强与任务相关的信息和抑制特征嵌入中的无关信息，验证了所提出的方法在模拟几种机器人任务，包括 pick and place 任务中的应用，评估了学习表示的三个指标：视点对齐，阶段分类和强化学习，在所有情况下，结果都表明与现有方法相比，该方法水平更高，而且训练轮数更少。

Jan, 2022