PeFoMed: 多模态大语言模型的参数高效微调在医学视觉问答中的应用

Jan, 2024

PeFoMed: 多模态大语言模型的参数高效微调在医学视觉问答中的应用

PeFoMed: Parameter Efficient Fine-tuning on Multimodal Large Language Models for Medical Visual Question Answering

Jinlong He, Pengfei Li, Gang Liu, Zixu Zhao, Shenjun Zhong

TL;DR这篇论文提出了一个参数高效的框架，专门用于调整针对 Med-VQA 应用的多模式大型语言模型，并通过公共基准数据集进行了实证验证，结果显示我们的模型在封闭问题上的整体准确率达到了 81.9％，并且在准确率上超过 GPT-4v 模型 26％的显著优势。

Abstract

multimodal large language models (MLLMs) represent an evolutionary expansion in the capabilities of traditional large language models, enabling them to tackle challenges that surpass the scope of purely text-based applications. It leverages the knowledge previously encoded within these

multimodal large language models med-vqa parameter efficient framework fine-tuning visual question answering

发现论文，激发创造

高效多模态大型语言模型综述

在这份调研报告中，我们综述了当前高效多模态大语言模型（MLLMs）的研究状况，包括代表性的高效 MLLM 的时间线、高效结构和策略的研究现状以及应用领域。最后，我们讨论了目前高效 MLLM 研究的限制和有前途的未来方向。

May, 2024

LLMs 在医学多模态领域的调整方法是否有效？

通过对大型语言模型（LLMs）的精确调整和创新的参数高效微调（PEFT）方法的研究实验，本研究探讨了大型模型的微调方法对医疗领域的多模态模型的影响，并发展了最有效的医疗 VLP 模型微调方式，以指导医疗领域研究人员优化 VLM 的训练成本，促进其在医疗保健领域的更广泛应用。

Mar, 2024

MedLM：探索面向医学问答系统的语言模型

本研究通过比较一般性和专用于医学问答的精简语言模型的性能，旨在填补这方面的空白，并评估不同语言模型家族的性能，以探讨这些模型在医学问答领域的可靠性、比较性能和有效性，从而为不同语言模型在医学领域的特定应用提供有价值的见解。

Jan, 2024

HuatuoGPT-Vision，面向大规模注入医学视觉知识的多模态语言模型

通过使用 PubMedVision 数据集，我们对医学图像和文本进行了精炼和重构，从而改善了当前 MLLM 的医学多模态能力，并在医学多模态场景中展现了卓越的性能。

Jun, 2024

基于深度学习的视觉 - 语言任务统一框架

通过引入 pool-adapter 模块，保留视觉嵌入的位置信息，我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。

Nov, 2023

MISS：一个用于医学视觉问答的生成预训练和微调方法

本文提出了一种基于多任务自监督学习的大规模医学 VQA 任务框架（MISS），将医学 VQA 作为生成任务，并通过多任务学习对齐图像 - 文本特征；此外，我们通过使用大语言模型（LLMs），在单模态图像数据集上扩展单一模态图像特征空间，使得传统医学视觉领域任务数据能够应用于 VLP，实验证明我们的方法在较少的多模态数据集上取得了优异结果并展示了生成式 VQA 模型的优势。

Jan, 2024

有效微调以提升大型多模态放射学报告生成模型

利用生成性人工智能进行医学图像的放射学报告撰写可极大地减少了时间成本和错误率。本研究中，我们提出了一个简单而有效的两阶段微调方案，通过软性视觉提示将视觉特征与大型语言模型的文本嵌入空间对齐。我们的框架在没有领域特定预训练的情况下取得了最先进的性能，并对软性视觉提示和注意力机制进行了详细分析，为未来的研究方向提供了启示。

Dec, 2023

评估医疗 LLM 的微调策略：全参数 vs. 参数高效方法

该研究对两种主要的微调方法 —— 全参数微调和参数高效微调 —— 在医学大型语言模型（LLM）领域进行了全面的分析和比较。通过开发和优化一系列基于 Llama-2 架构的医学 LLM，从而提升医学知识检索、推理和问答的能力，我们系统地评估了这些微调策略在各种知名医学基准测试上的有效性。值得注意的是，我们的医学 LLM Med42 在美国医学执照考试（USMLE）数据集上表现出了 72% 的准确率，为公开可用的医学 LLM 性能树立了新的标准。通过这种比较分析，我们旨在找到医学领域 LLM 微调的最有效和高效方法，从而在推动以人工智能驱动的医疗应用方面做出重大贡献。

Apr, 2024

MedREQAL: 通过问答方式检验大型语言模型对医学知识的记忆能力

近年来，大型语言模型（LLMs）在大文本语料库的预训练过程中展示了令人印象深刻的知识编码能力。本研究通过构建一个新的基于系统评述的数据集，评估了六种 LLMs（如 GPT 和 Mixtral）在医学知识回忆方面的能力，并揭示了此任务的复杂性。

Jun, 2024

运用大型语言模型实现专业级医疗问答

Med-PaLM 2 combines improvements in Large Language Models, medical domain fine-tuning, and novel ensemble refinement approaches to achieve a state-of-the-art performance approaching or exceeding physician-level performance in medical question answering.

May, 2023