医疗视觉语言预训练：综述

Dec, 2023

Medical Vision Language Pretraining: A survey

Prashant Shrestha, Sanskar Amgain, Bidur Khanal, Cristian A. Linte, Binod Bhattarai

TL;DR医疗视觉语言预训练透过自监督学习的方式利用图像和文本数据集，为医学领域稀缺的标注数据提供了解决方案。该文回顾了医疗视觉语言预训练的不同目标、架构、评估任务和数据集，并探讨了现有挑战及未来发展方向。

Abstract

medical vision language pretraining (VLP) has recently emerged as a promising solution to the scarcity of labeled data in the medical domain. By leveraging paired/unpaired vision and text datasets through

medical vision language pretraining labeled data self-supervised learning downstream evaluation tasks future directions

发现论文，激发创造

VLP：视觉语言预训练综述

本文调查了最近关于视觉 - 语言预训练 (VLP) 的进展和新前沿。这是第一篇关注 VLP 的综述文章，并对 VLP 模型做了具体总结，旨在为 VLP 领域的未来研究提供启示。

Feb, 2022

对齐、推理和学习：利用知识增强医疗视觉语言预训练

本文提出了一种系统和有效的方法来增强医学视觉和语言预训练 (Med-VLP)，通过结构化医学领域专家知识从三个方面做到了这一点，并构建了一个医学视觉和语言基准来评估此方法的有效性。

Sep, 2022

视觉 - 语言预训练：基础、最新进展和未来趋势

本文研究多模态智能领域的视觉 - 语言预训练方法，分为三类分类，包含图像 - 文本、核心计算机视觉和视频 - 文本任务，针对每类任务，提出了针对性的方法，分别探究了研究进展和存在的挑战并讨论了更先进的主题。

Oct, 2022

视觉与语言预训练

本篇研究综述了当下 Vision-and-Language 领域内的预训练模型，并归纳总结了相关预训练技术、训练集以及下游任务。同时，文章还讨论了未来研究的多个方向。

Jul, 2022

利用合成数据进行医学视觉 - 语言预训练：绕开真实图像的需求

利用合成图像从真实医学报告中生成的医学影像，可以有效地实现医学视觉与语言预训练 (VLP)，并且在图像分类、语义分割和目标检测等任务上，利用合成数据的性能与真实数据相当甚至超过。

Oct, 2023

医学视觉语言理解和生成的多模型预训练：新基准的实证研究

通过提出一个高质量的医学放射照片数据集 (RadioGraphy Captions)，本文对医学领域的视觉 - 语言 (VL) 预训练 (VLP) 进行了深入的实验分析，得出了一些指导未来医学 VL 任务研究和新的强基准的关键结论。

Jun, 2023

医学视觉语言预训练用于脑部异常

本研究旨在展示如何从公共资源如 PubMed 中自动收集医学图像与文本对齐数据，构建用于具体医学任务的高性能视觉语言模型，并解决医学领域中子图到子标题的映射问题。

Apr, 2024

Med-UniC：通过减少偏差，统一跨语言医学视觉语言预训练

Med-UniC 是一种用于统一跨语言医疗视觉语言预训练的框架，通过使用 CTR 方法对多模式医疗数据进行处理，解决了语言、文化及隐含知识等方面的问题，减轻了社区偏见并取得了优异的成果。

May, 2023

弃用预训练：将视觉 - 语言模型应用于未知语言

本文提出一种简单而有效的方法，利用多语言预训练语言模型（MPLM）和跨语言上下文化词嵌入对 VLP 进行了调整和适应，以在未见过的语言上具有出色的表现，而无需大量平行语料库。

Jun, 2023

视觉 - 语言预训练模型综述

本文综述了视觉 - 语言预训练模型在多模态学习上的进展，介绍了编码图像、文本信息的方法，分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务，并提出了未来的研究方向。

Feb, 2022