SERPENT-VLM：利用视觉语言模型自我生成精化放射学报告

Apr, 2024

SERPENT-VLM：利用视觉语言模型自我生成精化放射学报告

SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models

Manav Nitin Kapadnis, Sohan Patnaik, Abhilash Nandy, Sourjyadip Ray, Pawan Goyal...

TL;DR尽管现有方法经常会在基于文本的报告中凭空想象细节，而不能准确反映图像内容，但《Radiology Report Generation（R2Gen）》展示了多模态大型语言模型（MLLMs）如何自动化生成准确和连贯的放射学报告。为了缓解这个问题，我们引入了一种新颖的策略SERPENT-VLM，将自我完善的机制集成到MLLM框架中，通过利用生成的放射学文本的上下文表示和汇总图像表示之间的相似性，在标准因果语言建模目标的基础上采用独特的自监督损失来完善图像-文本表示，从而使模型能够通过给定图像和生成文本之间的动态交互来审视和对齐生成的文本，从而减少幻觉并持续增强细微的报告生成能力。SERPENT-VLM在IU X-ray和Radiology Objects in COntext（ROCO）数据集上优于现有的基线方法，如LLaVA-Med、BiomedGPT等，并且证明在嘈杂的图像环境中具有稳健性。定性案例研究强调了MLLM框架在R2Gen中向更复杂方向发展的重要进展，为医学成像领域的自监督完善研究打开了新的研究路径。

Abstract

radiology report generation (R2Gen) demonstrates how multi-modal large language models (MLLMs) can automate the creation of accurate and coherent radiological reports. Existing methods often hallucinate details i