视觉与语言预训练
本文探讨了计算机视觉和自然语言处理中预训练方法的标准方法学习经验,分别采用单流和双流编码器进行归纳分析。我们就五种视觉与语言BERT的差异进行经验研究,揭示出预训练数据和超参数是这些异常壮观的模型之间不同的原因,同时将两类网络统一在同一理论框架之下,指出embedding layer在这些模型中具有至关重要的作用。
Nov, 2020
本文调查了最近关于视觉-语言预训练 (VLP) 的进展和新前沿。这是第一篇关注VLP的综述文章,并对VLP模型做了具体总结,旨在为VLP领域的未来研究提供启示。
Feb, 2022
本文综述了视觉-语言预训练模型在多模态学习上的进展,介绍了编码图像、文本信息的方法,分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务,并提出了未来的研究方向。
Feb, 2022
这篇论文从时间的角度对视觉语言智能进行了全面的调研, 总结了三个时期的发展, 包括特定任务方法, 视觉-语言预训练方法和通过大规模弱标签数据增强的更大模型, 并讨论了未来的发展趋势.
Mar, 2022
本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功,着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略,并提出了未来三个方向的研究建议。
Apr, 2022
该研究重点研究了通过使用不同于传统方法的先前训练模型知识来改进视频分类的方法,简单而有效的调整模式在各种视频识别场景中达到了最先进的表现。
Jul, 2022
本文研究多模态智能领域的视觉-语言预训练方法,分为三类分类,包含图像-文本、核心计算机视觉和视频-文本任务,针对每类任务,提出了针对性的方法,分别探究了研究进展和存在的挑战并讨论了更先进的主题。
Oct, 2022
本文提出一种简单而有效的方法,利用多语言预训练语言模型(MPLM)和跨语言上下文化词嵌入对 VLP 进行了调整和适应,以在未见过的语言上具有出色的表现,而无需大量平行语料库。
Jun, 2023