有效微调以提升大型多模态放射学报告生成模型
利用大型语言模型进行人工智能辅助的放射学报告生成与评估研究,通过结合放射科医生专业知识并采用相关评估指标以提高医学报告质量评估水平。
Jan, 2024
使用大型语言模型对医学成像报告进行评估的一项新颖评估框架,通过与放射科医生评估结果的对比,提出了一种性能接近 GPT-4 的度量标准。为了降低成本并提高可访问性,利用语言模型评估结果构建数据集,进行了知识蒸馏以训练较小的模型,该模型的评估能力与 GPT-4 相当,为医学成像报告生成提供了一种易于使用和高效的评估方法,促进了更具临床相关性的模型的开发,该模型将进一步开源和提供可访问性。
Apr, 2024
在本文中,我们介绍了 MID-M 这一创新框架,利用通用领域的大规模语言模型(LLM)的上下文学习能力,通过图像描述来处理多模态数据,其在性能上与任务特定的精调 LLMs 和其他通用领域的 LLMs 相当或更为出色,无需广泛域特定训练或多模态数据的预训练,参数更少,突出了利用通用领域 LLMs 进行领域特定任务的潜力,并为传统 LMM 发展提供了可持续和经济高效的替代方案。此外,MID-M 对于数据质量问题的稳健性证明了其在实际医学领域应用中的实用性。
Apr, 2024
利用模块化方法针对医学领域使用开源小型多模态模型来解决大规模基础模型在临床需求中存在的问题,并在放射学成像中展示了 LLaVA-Rad 模型的最新结果和其在报告生成和跨模态检索中的性能优势,成为真实世界临床应用的前景工具。
Mar, 2024
通过使用 LORA 方法,我们提出了使用特定领域的信息数据集进行模型参数微调的方法,我们的研究旨在提高 Video-LLaVA 模型在烹饪视频中生成特定食材列表和详细指导的能力。
Jun, 2024
医疗报告生成需要自动创建连贯准确的医学图像描述。本研究基于最先进的视觉语言预训练和微调方法 BLIP-2,利用适配器调优和医学知识增强损失,显著提高了模型的准确性和连贯性。在 ImageCLEFmedical 2023 的数据集上验证,我们的模型取得了最佳的平均结果,优于几种最先进的方法。ROUGE 和 CIDEr 的显著改进突显了我们方法的有效性,为快速适应视觉语言基础模型以应对数据匮乏的挑战带来了有希望的结果。
Dec, 2023
该研究提出了一种包括多步骤评估法的大型语言模型(LLM)评估范例,通过结构化的交互方式进行多模态 LLM 评估,并通过获取交互数据进行后续领域特定的分析,以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM,使用多模态多项选择题评估其在病理学领域的医学诊断准确性,结果表明其约有 84% 的正确诊断,同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview,还可应用于评估其他 LLMs 的准确性和实用性,以进一步优化其应用。
Jan, 2024
通过深度学习方法,欧州央行会公布最新的 Automatic radiology report generation 的方法,并且总结了该领域内多模态数据获取、数据融合等关键技术的发展,并为进一步研究提供了详尽的信息。
May, 2024
为了有效地弥合 LLMs 和 R2Gen 任务之间的模态差异,提出了一种新颖的解决方案 R2GenGPT,通过高效的视觉对齐模块将视觉特征与 LLMs 的词嵌入空间对齐,使得以前静态的 LLMs 能够无缝集成和处理图像信息,从而优化 R2Gen 性能。
Sep, 2023