面向医疗报告生成的基于能力的多模态课程学习

ACLJun, 2022

面向医疗报告生成的基于能力的多模态课程学习

Competence-based Multimodal Curriculum Learning for Medical Report Generation

Xuewei Ma, Fenglin Liu, Shen Ge, Xian Wu

TL;DR该研究针对医学图像生成任务的特殊性，提出了基于能力的多模态课程学习框架（CMCL），并在公开数据集上进行了实验，证明该框架可用于改善数据偏差和提高现有模型的性能。

Abstract

medical report generation task, which targets to produce long and coherent descriptions of medical images, has attracted growing research interests recently. Different from the general image captioning tasks, medical report generation is more challenging for data-driven →

medical report generation competence-based multimodal curriculum learning neural models data bias radiologists

发现论文，激发创造

基于多模态数据的深度学习辅助放射学报告生成调研

通过深度学习方法，欧州央行会公布最新的 Automatic radiology report generation 的方法，并且总结了该领域内多模态数据获取、数据融合等关键技术的发展，并为进一步研究提供了详尽的信息。

May, 2024

基于分段增强对比表示学习的医学报告生成

通过医学图像分割（SAM）模型实现对器官、异常、骨骼等的分割，利用一种监督对比损失函数缓解数据偏差并提高医学图像报告的质量。实验证明所提模型在 IU X-Ray 公共数据集上表现出的卓越性能。

Dec, 2023

跨模态记忆网络用于放射学报告生成

本文提出了一种跨模式记忆网络 (CMN) 来增强医学影像学中放射学报告自动生成的编码器 - 解码器框架，实验结果表明该模型能够更好地对齐放射图像和文本信息，具有更高的临床指标准确性。

Apr, 2022

使用多模态深度学习整合医学影像与临床报告进行先进疾病分析

通过创新的多模态深度学习模型，本文旨在深度整合医学图像和临床报告等异构信息。使用卷积神经网络提取高维特征，捕捉关键视觉信息；利用双向长短时记忆网络结合注意机制，在临床报告文本中进行深度语义理解，准确捕捉与疾病相关的关键陈述。通过设计的多模态融合层，有效实现图像和文本的联合表征学习。实证研究中，利用大型医学图像数据库和相应的临床报告进行模型训练和验证，实验结果明显展示了多模态深度学习模型在疾病分类、损伤定位和临床描述生成方面的显著优越性。

May, 2024

超越图像：胸部 X 光片报告生成的综合多模态方法

通过结合结构化患者数据和非结构化临床记录，我们提出了一种新颖的多模态深度神经网络框架，用于生成描述医学图像结果的胸部 X 射线检查报告，并通过引入条件交叉多头注意力模块来融合这些异构数据模态，弥合视觉和文字数据之间的语义差距。与仅依赖图像的模型相比，实验证明通过使用附加模态可以显著改善结果，在 ROUGE-L 指标上达到了文献相关最高的性能。此外，我们采用了人工评估和临床语义相似度测量以及词重叠度指标来提高定量分析的深度。由经过认证的放射科医师进行的人工评估确认了该模型在识别高级结果方面的准确性，但也强调需要更多的改进以捕捉细微的细节和临床背景。

Nov, 2023

胸部 X 光报告生成的弱监督对比学习

本篇论文提出了一种弱监督的对比损失方法，用于提高放射学报告生成的文本质量，实验结果表明该方法在两个公共基准数据集上在临床正确性和文本生成指标方面优于以前的工作。

Sep, 2021

基于记忆的跨模态语义对齐网络用于放射学报告生成

提出了一种基于记忆的跨模态语义对齐模型（MCSAM），它包括一个良好初始化的长期临床记忆库来学习与疾病相关的表示，以及检索和使用检索到的记忆进行特征整合的先验知识，同时通过交叉模态语义对齐模块（SAM）生成语义视觉特征嵌入，有助于报告生成；通过使用可学习的记忆提示记住解码器在报告生成过程中的状态和附加信息，实验证明该方法在 MIMIC-CXR 数据集上具有有前景的性能表现。

Mar, 2024

RJUA-MedDQA: 医学文件问题回答和临床推理的多模态基准测试

最近对大型语言模型 (LLMs) 和大型多模态模型 (LMMs) 的进展表明其在各种医疗应用中具有潜力，如智能医学诊断。本研究引入了综合医学专业领域的 RJUA-MedDQA 基准测试，用于全面解释各种医学报告的复杂性和专门的深入推理能力。我们设计了数据生成流程，并提出了高效的结构恢复注释 (ESRA) 方法，可显著提高注释效率并提供 26.8% 的准确率改进。通过使用 ESRA 方法生成的图像 - 文本，在 5 个能够解决中文医学问答任务的 LMMs 上进行了全面评估和少样本评估。我们对一组强大的 LLMs 进行了比较实验，发现现有的 LLMs 性能仍受限制，但与 LMMs 相比，LMMs 在低质量和多样化结构的图像上更加稳健。跨上下文和图像内容的推理具有重大挑战。希望此基准测试有助于推动多模态医学文档理解领域的研究并促进其在医疗健康领域的应用。

Feb, 2024

面向三维脑部 CT 报告生成的多模态大型语言模型的整体框架

通过收集 3D 脑部 CT 数据集，使用临床视觉指导调整 (CVIT) 训练 BrainGPT 模型生成符合放射学的脑部 CT 报告，并提出了一种新的面向特征的放射学任务评估 (FORTE) 方法来评估报告的临床相关性。

Jul, 2024

病变定位的多模态自监督学习

利用图像和诊断报告的多模态深度学习在医学影像诊断领域取得了显著进展，尤其在缺乏足够注释信息的辅助诊断方面具有强大的能力，然而，没有详细位置注释的准确定位疾病仍然是一个挑战，现有的方法已尝试利用局部信息实现细粒度语义对齐，但其在提取综合上下文内的细粒度语义能力有限，为解决这一问题，我们提出了一种新的方法，将文本报告中的完整句子作为局部语义对齐的基本单元，我们的方法结合了胸部 X 射线图像和相应的文本报告，在全局和局部层面进行对比学习，我们的方法在多个数据集上取得的领先结果证实了其在病灶定位任务中的有效性。

Jan, 2024