简化多模态：使用通用领域大型语言模型在放射学中解决多模态挑战的单模态方法

Apr, 2024

简化多模态：使用通用领域大型语言模型在放射学中解决多模态挑战的单模态方法

Simplifying Multimodality: Unimodal Approach to Multimodal Challenges in Radiology with General-Domain Large Language Model

PDF

Seonhee Cho, Choonghan Kim, Jiho Lee, Chetan Chilkunda, Sujin Choi...

TL;DR在本文中，我们介绍了 MID-M 这一创新框架，利用通用领域的大规模语言模型（LLM）的上下文学习能力，通过图像描述来处理多模态数据，其在性能上与任务特定的精调 LLMs 和其他通用领域的 LLMs 相当或更为出色，无需广泛域特定训练或多模态数据的预训练，参数更少，突出了利用通用领域 LLMs 进行领域特定任务的潜力，并为传统 LMM 发展提供了可持续和经济高效的替代方案。此外，MID-M 对于数据质量问题的稳健性证明了其在实际医学领域应用中的实用性。

Abstract

Recent advancements in large multimodal models (LMMs) have attracted interest in their generalization capability with only a few samples in the prompt. This progress is particularly relevant to the →

large multimodal models generalization capability mid-m in-context learning medical domain

发现论文，激发创造

有效微调以提升大型多模态放射学报告生成模型

利用生成性人工智能进行医学图像的放射学报告撰写可极大地减少了时间成本和错误率。本研究中，我们提出了一个简单而有效的两阶段微调方案，通过软性视觉提示将视觉特征与大型语言模型的文本嵌入空间对齐。我们的框架在没有领域特定预训练的情况下取得了最先进的性能，并对软性视觉提示和注意力机制进行了详细分析，为未来的研究方向提供了启示。

Dec, 2023

医学中大型语言模型与多模态大型语言模型的综述

该调查论文介绍了 LLMs 和 MLLMs 的发展背景和原则，并探讨了它们在医学中的应用场景、挑战和未来方向。通过追踪从传统模型到 LLMs 和 MLLMs 的演变，概括了模型结构以提供详细的基础知识。强调 LLMs 和 MLLMs 在医疗保健中的巨大价值，调查总结了 6 个有前景的医疗应用。同时讨论了医学 LLMs 和 MLLMs 面临的挑战，并提出了将人工智能与医学进一步整合的可行方法和方向。旨在为研究人员提供一个有价值且全面的参考指南。

May, 2024

探索多模态大型语言模型用于放射学报告错误检查

该研究通过多模态大型语言模型（LLMs）作为辅助工具，检视放射科医生报告中的错误，取得良好的效果，对放射学诊断准确性的提升具有潜力。

Dec, 2023

M3D：利用多模态大型语言模型推进 3D 医学图像分析

该研究论文通过大规模的三维多模态医学数据集 M3D-Data 和多模态大型语言模型 M3D-LaMed，在各种三维医学任务上实现了先进的医学图像分析方法，并提出了用于自动评估的新的三维多模态医学基准 M3D-Bench。

Mar, 2024

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

训练小型多模态模型以弥合生物医学能力差距：放射学成像的案例研究

利用模块化方法针对医学领域使用开源小型多模态模型来解决大规模基础模型在临床需求中存在的问题，并在放射学成像中展示了 LLaVA-Rad 模型的最新结果和其在报告生成和跨模态检索中的性能优势，成为真实世界临床应用的前景工具。

Mar, 2024

评估基于 LLM 生成的医学图像和症状分析的多模态诊断

该研究提出了一种包括多步骤评估法的大型语言模型（LLM）评估范例，通过结构化的交互方式进行多模态 LLM 评估，并通过获取交互数据进行后续领域特定的分析，以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM，使用多模态多项选择题评估其在病理学领域的医学诊断准确性，结果表明其约有 84% 的正确诊断，同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview，还可应用于评估其他 LLMs 的准确性和实用性，以进一步优化其应用。

Jan, 2024

基于个体特定数据的健康多模态 LLM

该研究通过开发一种名为 HeLM 的框架，使多模态大型语言模型 (LLMs) 能够使用高维临床模态来估计潜在疾病风险，并且在使用英国生物银行的数据进行验证时，HeLM 能够有效地利用人口统计学、临床特征和高维时间序列数据来估计疾病风险。

Jul, 2023

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023