利用文本语义改进生物医学视觉-语言处理
本文提出一种名为 BioViL-T 的方法,使用了了同时训练和微调过程中的先前图像和报告,通过 CNN-Transformer 混合多图像编码器与文本模型协同训练,获得了最先进的性能,在单图像和多图像设置下实现了进展分类,短语接地和报告生成,并在疾病分类和句子相似性任务上持续提供改进,并使用一个新的多模态时间基准数据集 MS-CXR-T 表征了视觉语言表示的优劣。
Jan, 2023
本文介绍了BiomedCLIP在生物医学视觉语言处理方面的应用,该方法针对生物医学VLP进行改进和优化,实验结果显示,BiomedCLIP已成为标准数据集中广泛应用于检索、分类和视觉问答等任务的新的最佳模型,且在某些领域甚至胜过了目前的最新模型。
Mar, 2023
该研究综述了语言模型在医学成像领域中的应用,重点介绍了不同应用,如图像字幕、报告生成、报告分类、查找提取、视觉问答、可解释性诊断等,并探讨了语言模型在医学影像分析中的潜在优点,包括提高临床工作流程效率、降低诊断错误、协助医疗保健专业人员提供及时准确的诊断。
Apr, 2023
本研究介绍了 XrayGPT,一种新型的会话式医疗视觉-语言模型,可以分析并回答关于胸部 X 光片的开放式问题。通过将医疗视觉编码器 MedClip 与微调的大型语言模型 Vicuna 进行对齐,并使用简单的线性变换,我们的模型能够具备出色的视觉会话能力,从而深入理解放射学和医学领域的知识。
Jun, 2023
利用合成图像从真实医学报告中生成的医学影像,可以有效地实现医学视觉与语言预训练(VLP),并且在图像分类、语义分割和目标检测等任务上,利用合成数据的性能与真实数据相当甚至超过。
Oct, 2023
通过关系增强的对比学习框架(RECLF),我们提出了一种可以模拟匹配间关系的医学图像表示学习方法,该方法利用医学图像报告作为弱监督,并通过图像-文本对齐实现。我们的结果表明,通过模拟匹配间关系,我们的RECLF方法可以学习到具有更好泛化能力的改进型医学图像表示。
Jan, 2024
通过提出强调关键语义知识的报告细化方法,本文开发了一种新颖的迭代式视觉-语言表示学习框架,从而对原始放射学报告进行细化,突出显示关键信息,并逐渐提取对细粒度分析任务至关重要的关键信息,从而验证了该框架在各种下游医学图像分析任务中的有效性,并展示了其在不同临床应用中的鼓舞人心的潜力。
Jan, 2024
尽管现有方法经常会在基于文本的报告中凭空想象细节,而不能准确反映图像内容,但《Radiology Report Generation(R2Gen)》展示了多模态大型语言模型(MLLMs)如何自动化生成准确和连贯的放射学报告。为了缓解这个问题,我们引入了一种新颖的策略SERPENT-VLM,将自我完善的机制集成到MLLM框架中,通过利用生成的放射学文本的上下文表示和汇总图像表示之间的相似性,在标准因果语言建模目标的基础上采用独特的自监督损失来完善图像-文本表示,从而使模型能够通过给定图像和生成文本之间的动态交互来审视和对齐生成的文本,从而减少幻觉并持续增强细微的报告生成能力。SERPENT-VLM在IU X-ray和Radiology Objects in COntext(ROCO)数据集上优于现有的基线方法,如LLaVA-Med、BiomedGPT等,并且证明在嘈杂的图像环境中具有稳健性。定性案例研究强调了MLLM框架在R2Gen中向更复杂方向发展的重要进展,为医学成像领域的自监督完善研究打开了新的研究路径。
Apr, 2024
使用多模态的医学影像,利用视觉语言模型(CLIP)自动生成整体身体的标准化分区和器官列表,相较于基线模型(PubMedCLIP),提高性能达到47.6%。
May, 2024
本文关注于医学放射图像表示学习中的难点,提出了一种混合预训练框架HybridMED,旨在将全球视觉表示与图像的印象部分以及图像的发现部分的视觉表示进行对齐。通过实验,发现该框架有效地提高了模型性能,同时避免了参数的显著增加,展示了知识蒸馏在提升训练过程中的重要作用。
Oct, 2024