对比多模态预训练理解中文视频和语言

Apr, 2021

对比多模态预训练理解中文视频和语言

Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training

Chenyi Lei, Shixian Luo, Yong Liu, Wanggui He, Jiamang Wang...

TL;DR本文提出了一种新型的视频 - 语言理解框架 VICTOR，通过对比学习范式构建了几个新型代理任务，使模型在不同角度能够更稳健并能够捕捉更多复杂的多模态语义和结构关系。通过在一个包括 10,000,000 个视频及其相应高质量文本描述的大规模中文视频语言数据集上训练 VICTOR，我们在一系列下游应用中展示了其优越的性能，并与 VideoBERT 和 UniVL 等先进的预训练方法进行了比较。

Abstract

The pre-trained neural models have recently achieved impressive performances in understanding multimodal content. However, it is still very challenging to pre-train neural models for video and language understand

pre-training neural models chinese video-language data victor contrastive learning

发现论文，激发创造

用于多通道视频 - 语言检索的预训练对比模型的快速适应

探索多模态检索中利用预训练对比模型和文本符号融合信息的最佳方式，并发现用离散文本符号表示视频的方法取得最佳效果。

Jun, 2022

UniVL: 用于多模态理解和生成的统一视频与语言预训练模型

本论文提出了 UniVL：一种统一的视频和语言预训练模型，旨在为多模态理解和生成任务提供强大的视频和文本表示，并通过五个目标以及分阶段和增强视频表示的预训练策略来训练各组件，最终在五个下游任务上实现了最新的成果。

Feb, 2020

扩展语言图像预训练模型以实现通用视频识别

本文提出一种简单有效的方法，将预先训练好的语言 - 图像模型直接应用于视频识别中，使用跨帧注意力机制及视频特定提示方案，实现对长时序列的检测，提高了零样本下的准确率。

Aug, 2022

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023

WenLan：大规模多模态预训练桥接视觉和语言

本文介绍了作者团队领导的 “文兰” 项目的主要研究方向，即通过两个塔的 BriVL 预训练模型和跨模态对比学习框架的先进算法，隐式地建模跨模态关联，从而更成功地实现大规模多模态预训练。同时，他们还建立了一个大规模的中文多源图像文本语料库，称为 RUC-CAS-WenLan，用于 BriVL 模型的预训练。实验结果表明，预训练的 BriVL 模型在各种下游任务中的性能优于 UNITER 和 OpenAI CLIP。

Mar, 2021

跨语言视觉预训练用于多模式机器翻译

本文结合视觉和语言的跨语言预训练方法，使用三重并行视觉和语言语料库进行预训练，并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。

Jan, 2021

使用实体提示进行语言及视频预训练

本文提出了一种高效且有效的视频和语言预训练框架 ——Align and Prompt，通过提出视频 - 文本对比（VTC）损失和提示实体建模（PEM）任务来更好地跨模态对齐，从而学习精细的区域 - 实体对齐，与以前的方法相比取得了显着性能提升。

Dec, 2021

中文 CLIP：中文对比视觉 - 语言预训练

该研究使用中文数据构建巨大的图像文本配对数据集，并使用其预训练中文 CLIP 模型，该模型能够在零 - shot 学习和微调设置下，在 MUGE、Flickr30K-CN 和 COCO-CN 上实现最新技术水平，并能够在 ELEVATER 基准测试中实现竞争性能。

Nov, 2022

RC3：正则化对比交叉语言交叉模态预训练

该研究提出了 RC^3 pre-training 方法，该方法利用弱对齐的多语言图像 - 文本对进行跨语言、跨模态的视觉 - 语言预训练，并在下游的多模态任务中表现出更强的效果。

May, 2023

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023