本文综述了视觉 - 语言预训练模型在多模态学习上的进展,介绍了编码图像、文本信息的方法,分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务,并提出了未来的研究方向。
Feb, 2022
视觉语言任务中,基于预训练的变压器架构在视觉语言建模方面表现出色,为视觉和语言结合的任务带来了类似的进展。
Jul, 2023
本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功,着重介绍了视觉语言预训练模型 (VLPM) 的重要进展及其结构、预训练和微调策略,并提出了未来三个方向的研究建议。
Apr, 2022
通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集,探索大型预训练模型在多模机器翻译任务中的应用。
Jun, 2023
本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾,包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点,并提出了未来的研究方向。
Jan, 2021
本文回顾了将 Transformer 应用于计算机视觉任务中的视觉 Transformer 模型,并分为不同任务类别,分析它们的优点和缺点,同时也介绍了将 Transformer 应用到实际设备应用的有效方法。最后,本文还探讨了计算机视觉中的自注意机制以及视觉 Transformer 面临的挑战及进一步研究方向。
Dec, 2020
本篇研究综述了当下 Vision-and-Language 领域内的预训练模型,并归纳总结了相关预训练技术、训练集以及下游任务。同时,文章还讨论了未来研究的多个方向。
Jul, 2022
该研究调查了 Transformer 模型在建模视频方面的使用,并分析了在处理视频的输入级别时如何更高效地减少冗余、重新引入有用的归纳偏见以及捕捉长期的时间动态,探索了有效的自监督学习策略,表明在视频的行动分类基准测试中,与 3D ConvNets 相比,它们具有更低的计算复杂度。
Jan, 2022
我们通过利用脑科学证据来探索预训练的多模态视频变换器模型,发现视觉增强了与语言处理中的遮蔽预测性能,支持模型中交叉模态表示可以受益于个体模态,但未发现与大脑相关的信息,我们展示使用一个需要视觉 - 语言推理的任务,可以改善预训练联合表示的脑对齐效果,这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力,但也表明改善这些模型的脑对齐可能需要新的方法。
Nov, 2023
该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言(V+L)方面的应用,通过评估和探索内部机制,提供了关于多模式预训练及其注意力头的启示和指导。
May, 2020