基于 Transformer 的视频语言预训练调查

Sep, 2021

基于 Transformer 的视频语言预训练调查

Survey: Transformer based Video-Language Pre-training

Ludan Ruan, Qin Jin

TL;DR本文综述了基于 Transformer 的预训练方法在视频语言学习方面的应用，包括代理任务、下游任务和常用视频数据集，将 Transformer 模型分为单流和多流结构，并比较它们的性能。最后，我们分析和讨论了当前挑战和了可能的未来研究方向。

Abstract

Inspired by the success of transformer-based pre-training methods on natural language tasks and further computer vision tasks, researchers have begun to apply transformer to video processing. This survey aims to

transformer-based pre-training video processing video-language learning proxy tasks downstream tasks

发现论文，激发创造

视觉 - 语言预训练模型综述

本文综述了视觉 - 语言预训练模型在多模态学习上的进展，介绍了编码图像、文本信息的方法，分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务，并提出了未来的研究方向。

Feb, 2022

视觉语言变换器：一项调研

视觉语言任务中，基于预训练的变压器架构在视觉语言建模方面表现出色，为视觉和语言结合的任务带来了类似的进展。

Jul, 2023

视觉语言预训练模型：一项调查

本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功，着重介绍了视觉语言预训练模型 (VLPM) 的重要进展及其结构、预训练和微调策略，并提出了未来三个方向的研究建议。

Apr, 2022

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023

视觉中的 Transformer：一项综述

本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾，包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点，并提出了未来的研究方向。

Jan, 2021

关于视觉 Transformer 的调查

本文回顾了将 Transformer 应用于计算机视觉任务中的视觉 Transformer 模型，并分为不同任务类别，分析它们的优点和缺点，同时也介绍了将 Transformer 应用到实际设备应用的有效方法。最后，本文还探讨了计算机视觉中的自注意机制以及视觉 Transformer 面临的挑战及进一步研究方向。

Dec, 2020

视觉与语言预训练

本篇研究综述了当下 Vision-and-Language 领域内的预训练模型，并归纳总结了相关预训练技术、训练集以及下游任务。同时，文章还讨论了未来研究的多个方向。

Jul, 2022

视频 Transformer: 综述

该研究调查了 Transformer 模型在建模视频方面的使用，并分析了在处理视频的输入级别时如何更高效地减少冗余、重新引入有用的归纳偏见以及捕捉长期的时间动态，探索了有效的自监督学习策略，表明在视频的行动分类基准测试中，与 3D ConvNets 相比，它们具有更低的计算复杂度。

Jan, 2022

多模视觉 - 语言整合的多模视频变压器与大脑 (部分) 对齐

我们通过利用脑科学证据来探索预训练的多模态视频变换器模型，发现视觉增强了与语言处理中的遮蔽预测性能，支持模型中交叉模态表示可以受益于个体模态，但未发现与大脑相关的信息，我们展示使用一个需要视觉 - 语言推理的任务，可以改善预训练联合表示的脑对齐效果，这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力，但也表明改善这些模型的脑对齐可能需要新的方法。

Nov, 2023

幕后揭秘：揭示预训练视觉语言模型的秘密

该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言（V+L）方面的应用，通过评估和探索内部机制，提供了关于多模式预训练及其注意力头的启示和指导。

May, 2020