主动协作框架:零样本多模态医学推理的查询、交互和集成
提出了一种基于大型语言模型(LLMs)的多学科协作(MC)框架,通过角色扮演的 LLM 代理参与协作多轮讨论,增强 LLM 的能力和推理能力,用于挖掘并利用 LLMs 中的医学专业知识和扩展其推理能力,同时在人类评估中找出常见错误并进行消融研究。
Nov, 2023
在高风险领域如医疗推理中,目前大语言模型的 AI 助理尚缺乏可靠性和安全性。本文提出了挑战可靠性的主要障碍:现有的大语言模型被训练以回答任何问题,即使在提问时存在不完整的上下文或不足的参数知识。我们建议通过开发更加谨慎的大语言模型来改变这种模式,让它们能够通过追问问题来收集必要和充分的信息并提供可靠的回答。我们引入了 MEDIQ 框架,用于模拟逼真的临床交互过程,其中包括患者系统和自适应专家系统。患者系统可能在开始阶段提供不完整的信息;当专家系统对决策缺乏信心时,会通过追问问题来获取患者缺失的详细信息,而不会做出诊断决策。为了评估 MEDIQ,我们将 MEDQA 和 CRAFT-MD(用于诊断问题回答的医学基准测试)转化为交互式设置。我们开发了一个可靠的患者系统,并原型化了几个专家系统,首先表明直接命令最先进的大语言模型提问会降低临床推理的质量,表明将大语言模型适应于交互式信息寻求环境是困难的。然后,我们使用新的弃权模型来改进专家系统,更好地估计模型置信度,并决定是否追问更多问题,从而将诊断准确率提高了 20.3%;然而,性能仍然落后于完整信息均提供的理论上限(在实践中不切实际)。进一步分析表明,通过过滤不相关的上下文和重新格式化对话,可以提高交互性能。总体而言,我们的论文介绍了一个关于大语言模型可靠性的新问题,一个新的 MEDIQ 框架,并强调了在关键领域扩展大语言模型助理的信息寻求能力的重要未来方向。
Jun, 2024
通过在细调阶段共同训练信息检索系统和大规模语言模型,引入了一种创新方法 —— 共同医学 LLM 和检索训练(JMLR),以克服传统模型在处理医学问答任务方面面临的挑战,通过采用同步训练机制,JMLR 降低了对计算资源的需求,增强了模型利用医学知识进行推理和回答问题的能力。我们的实验结果表明,JMLR-13B 在 Amboos 上的正确率为 81.2%,在 MedQA 上的正确率为 61.3%,优于使用传统预训练和精调 Meditron-70B 模型(在 AMBOSS 上为 76.4%,在 MedQA 上为 60.3%)。在规模相同的 7B 模型中,JMLR-7B 的正确率(在 Amboos 上为 68.7%,在 MedQA 上为 51.7%)明显优于其他公开模型(Meditron-7B:50.1%,47.9%),证明了它在成本(我们的训练时间:37 小时,传统方法:144 小时)、效率和医学问题回答任务的有效性方面的优越性。通过此工作,我们为医疗保健提供了一种新的高效知识增强工具,展示了将信息检索和大规模语言模型训练集成到精确医学信息检索和问答系统中的巨大潜力。
Feb, 2024
我们提出了一个名为 $ extit {M}^3$ 框架的插件,用于提高多模态代理在多步推理中的模型选择和鲁棒性,同时创建了一个新的数据集 MS-GQA,用于研究多模态代理中的模型选择挑战,并通过实验证明我们的框架能够动态地选择模型,考虑用户输入和子任务之间的依赖关系,从而增强整体推理过程的鲁棒性。
Oct, 2023
最近对大型语言模型 (LLMs) 和大型多模态模型 (LMMs) 的进展表明其在各种医疗应用中具有潜力,如智能医学诊断。本研究引入了综合医学专业领域的 RJUA-MedDQA 基准测试,用于全面解释各种医学报告的复杂性和专门的深入推理能力。我们设计了数据生成流程,并提出了高效的结构恢复注释 (ESRA) 方法,可显著提高注释效率并提供 26.8% 的准确率改进。通过使用 ESRA 方法生成的图像 - 文本,在 5 个能够解决中文医学问答任务的 LMMs 上进行了全面评估和少样本评估。我们对一组强大的 LLMs 进行了比较实验,发现现有的 LLMs 性能仍受限制,但与 LMMs 相比,LMMs 在低质量和多样化结构的图像上更加稳健。跨上下文和图像内容的推理具有重大挑战。希望此基准测试有助于推动多模态医学文档理解领域的研究并促进其在医疗健康领域的应用。
Feb, 2024
使用大型语言模型(LLMs)自动化医疗任务,如临床记录、信息检索和决策支持。我们提出一种修改的 MedQA-USMLE 数据集,用于模拟真实的临床场景,并探索基于思维链(CoT)推理的主观响应生成,以获取正确的医疗问题答案。我们还利用回报训练机制和人类参与,开发了更好的对比学习策略,并通过增量推理的提示得出贪婪解码方法比其他策略更好的结论。
Mar, 2024
本文研究了基于视频对话生成,提出一种方法,可以将视频数据集成到预训练语言模型中,通过多模态推理实现各种模态之间的互补信息,实验结果表明,该模型能够在自动和人工评估方面显著优于现有的最先进模型。
Oct, 2022
我们提出了一个名为 ArgMed-Agents 的多代理框架,通过相互作用,使基于 LLM 的代理能够进行可解释的临床决策推理。该框架通过自我论证迭代和构建冲突关系的有向图,使 LLMs 能够模仿临床争辩推理的过程,并生成自主解释推理,从而提高复杂临床决策推理问题的准确性并增加用户的信心。
Mar, 2024
本研究通过将预训练的通用大型语言模型精细调整为医学领域专家,并结合多种优化方法,包括注入通用医学知识、医学领域指导微调和特定医学任务适应性调整,成功提升了在医学领域的推理和应答能力。
Dec, 2023
通过提出协作多代理、多推理路径的提示框架(CoMM),我们旨在推动大型语言模型(LLMs)的推理能力的上限,特别是解决复杂科学问题。
Apr, 2024