语言知识能够改善视觉 - 语言预训练中的多模态对齐吗?
本文提出了一种基于图像字幕生成的新型探测方法,用于研究视觉语言预训练模型中跨模态语义对齐的内部机制,发现 VLP 模型对齐的主要是对象和视觉词,忽略了全局语义,还存在固定的句子模式,无视语法和流畅性等问题。
Oct, 2022
本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示,结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型,因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。
Sep, 2021
本文提出了一种系统和有效的方法来增强医学视觉和语言预训练 (Med-VLP),通过结构化医学领域专家知识从三个方面做到了这一点,并构建了一个医学视觉和语言基准来评估此方法的有效性。
Sep, 2022
本文提出 SemVLP 预训练方法,通过单流预训练和双流预训练相结合,使用共享 Transformer 网络和可插入的跨模态注意模块,在不同的语义层次上对图像和文本进行联合对齐,以对齐跨模态表示,实验表明该方法可对齐不同语义粒度。
Mar, 2021
我们提出了一种称为 LanguageBind 的方法,通过冻结 VL 预训练得到的语言编码器,然后使用对比学习训练其他多模态编码器,实现多模态语义对齐,同时我们还提出了 VIDAL-10M 数据集用于此目的,经过在该数据集上的预训练,我们在零样本视频文本检索方面优于 ImageBind 1.2% R@1,并且在零样本视频,音频,深度和红外理解任务方面也取得了显著改进。
Oct, 2023
本文调查了最近关于视觉 - 语言预训练 (VLP) 的进展和新前沿。这是第一篇关注 VLP 的综述文章,并对 VLP 模型做了具体总结,旨在为 VLP 领域的未来研究提供启示。
Feb, 2022
本文提出新的语义完成学习任务,以便于视觉语言预训练(VLP)模型学习多模态数据的全局语义特征,从而实现全局到局部的对其,同时采用一种灵活的视觉编码器使得该模型可以同时执行图像 - 文本与视频 - 文本的多模态任务,实验结果证明该方法在各种视觉语言基准测试中均获得了最新的性能。
Nov, 2022
通过提出的全 Transformer 模型进行视觉 - 语言预训练(VLP),采用 Inter-Modality Flow(IMF)指标和遮盖特征回归(MFR)优化机制来增强视觉关系和视觉 - 语言分析,同时在各种视觉语言任务中取得了明显的最佳性能。
Jun, 2021
本文提出了一种无监督的图像与自然语言跨模态预训练方法,通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估,取得了在无监督设置下的最佳性能。
Mar, 2022
本文提出一种简单而有效的方法,利用多语言预训练语言模型(MPLM)和跨语言上下文化词嵌入对 VLP 进行了调整和适应,以在未见过的语言上具有出色的表现,而无需大量平行语料库。
Jun, 2023