医疗视觉语言预训练:综述
本文调查了最近关于视觉 - 语言预训练 (VLP) 的进展和新前沿。这是第一篇关注 VLP 的综述文章,并对 VLP 模型做了具体总结,旨在为 VLP 领域的未来研究提供启示。
Feb, 2022
本文提出了一种系统和有效的方法来增强医学视觉和语言预训练 (Med-VLP),通过结构化医学领域专家知识从三个方面做到了这一点,并构建了一个医学视觉和语言基准来评估此方法的有效性。
Sep, 2022
本文研究多模态智能领域的视觉 - 语言预训练方法,分为三类分类,包含图像 - 文本、核心计算机视觉和视频 - 文本任务,针对每类任务,提出了针对性的方法,分别探究了研究进展和存在的挑战并讨论了更先进的主题。
Oct, 2022
本篇研究综述了当下 Vision-and-Language 领域内的预训练模型,并归纳总结了相关预训练技术、训练集以及下游任务。同时,文章还讨论了未来研究的多个方向。
Jul, 2022
利用合成图像从真实医学报告中生成的医学影像,可以有效地实现医学视觉与语言预训练 (VLP),并且在图像分类、语义分割和目标检测等任务上,利用合成数据的性能与真实数据相当甚至超过。
Oct, 2023
通过提出一个高质量的医学放射照片数据集 (RadioGraphy Captions),本文对医学领域的视觉 - 语言 (VL) 预训练 (VLP) 进行了深入的实验分析,得出了一些指导未来医学 VL 任务研究和新的强基准的关键结论。
Jun, 2023
本研究旨在展示如何从公共资源如 PubMed 中自动收集医学图像与文本对齐数据,构建用于具体医学任务的高性能视觉语言模型,并解决医学领域中子图到子标题的映射问题。
Apr, 2024
Med-UniC 是一种用于统一跨语言医疗视觉语言预训练的框架,通过使用 CTR 方法对多模式医疗数据进行处理,解决了语言、文化及隐含知识等方面的问题,减轻了社区偏见并取得了优异的成果。
May, 2023
本文提出一种简单而有效的方法,利用多语言预训练语言模型(MPLM)和跨语言上下文化词嵌入对 VLP 进行了调整和适应,以在未见过的语言上具有出色的表现,而无需大量平行语料库。
Jun, 2023
本文综述了视觉 - 语言预训练模型在多模态学习上的进展,介绍了编码图像、文本信息的方法,分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务,并提出了未来的研究方向。
Feb, 2022