人工智能与人类集体生成的最准确的差异诊断

Jun, 2024

人工智能与人类集体生成的最准确的差异诊断

Human-AI collectives produce the most accurate differential diagnoses

N. Zöller, J. Berger, I. Lin, N. Fu, J. Komarneni...

TL;DR基于综合人机智能的混合智能系统在医疗诊断等复杂无结论领域的应用显示出了人类和大型语言模型的协同作用，以提高精确性。

Abstract

artificial intelligence systems, particularly large language models (LLMs), are increasingly being employed in high-stakes decisions that impact both individuals and society at large, often without adequate safeg

artificial intelligence systems large language models hybrid collective intelligence system medical diagnostics human and machine intelligence

发现论文，激发创造

多个大型语言模型的综合洞察提高诊断准确性

通过使用集体智能方法和 200 个真实病例的临床案例数据集，我们评估和比较了使用个别商业大型语言模型（OpenAI GPT-4、Google PaLM 2、Cohere Command、Meta Llama 2）提取的不同诊断与使用组合相同大型语言模型的回答合并后产生的不同诊断之间的准确性，结果发现聚合多个不同大型语言模型的回答能够更准确地产生不同诊断。

Feb, 2024

AI 医院：交互评估和合作使用 LLM 作为实习医生进行临床诊断

大型语言模型（LLMs）在医疗保健领域的应用具有重要意义，为了充分利用其交互潜力，本文提出了 AI Hospital 框架，用于构建实时互动诊断环境，并通过多视角医学评估（MVME）基准和协作机制来验证其可行性和有效性。

Feb, 2024

大型语言模型阐明人工医疗助理的进展路径：综述

通过综述大型语言模型在医学领域中的应用和意义，揭示了它们在知识检索、研究支持、临床工作流自动化和诊断辅助等方面的效用，并探索了多模态语言模型以及自动化代理在医疗保健中的发展潜力。然而，为了有效地将这些模型整合到临床实践中，需要不断优化和进行伦理监管。

Nov, 2023

大语言模型与用户信任：聚焦于医疗保健

论文探讨了临床医师对 LLMs 的信任与数据来源从人生成为 AI 生成内容的演变关系，并随之对 LLMs 的准确性和临床医师能力的影响。关注的其中一个主要问题是随着 LLMs 对其输出越来越依赖于学习，可能导致输出质量的降低和临床医师技能的减弱，因为与基本诊断过程的接触减少。虽然目前处于理论阶段，但这种反馈循环对于深入整合 LLMs 于医疗保健领域提出了重大挑战，强调了积极对话和战略措施以确保 LLM 技术的安全有效使用的必要性。此外，我们深入探讨了 LLMs 自我参考学习循环和医疗保健专业人员能力下降的潜在风险。LLMs 在回音室内运行的风险，其中 AI 生成的内容反馈到学习算法中，威胁到数据池的多样性和质量，可能固化偏见并降低 LLMs 的效力。同时，对 LLMs 在常规或关键任务方面的依赖可能导致医疗保健提供者的诊断和思考能力下降，特别影响未来专业人员的培训和发展。

Mar, 2024

癌症临床决策中的自主人工智能代理

多模态人工智能系统能够通过解释各种类型的医疗数据来增强临床决策，本研究引入了一种利用大型语言模型作为中央推理引擎的多模态医疗人工智能的替代方法，通过验证该系统在临床肿瘤学场景中的表现，证实了语言模型能够作为专科、以患者为中心的临床助手的有效性。

Apr, 2024

走向医疗领域的人机协作：大型语言模型引导的推迟系统

通过利用大型语言模型（LLMs）的口述能力和内部状态，该研究提出了一种新的引导性延期系统，结合人工智能和人类决策者的优势，以减少 LLMs 在关键决策时产生的不确定性，并证明通过利用大型模型的数据对较小的 LLMs 进行微调可以提高性能并保持计算效率。一项初步研究展示了该延期系统的有效性。

Jun, 2024

借助大型语言模型实现准确的鉴别诊断

本研究介绍了一种为诊断推理进行优化的大型语言模型 (LLM)，并评估其生成独立诊断推理 (DDx) 或为临床医生提供辅助的能力。结果显示，在挑战性真实医学案例中，使用 LLM 辅助的临床医生在 DDx 质量和全面性方面表现优于未使用该辅助工具的医生，证明 LLM 为 DDx 提供了潜力，有望改善医生在复杂病例中的诊断推理和准确性。

Nov, 2023

大型语言模型多轮医疗咨询自动评估框架

该研究介绍了一种自动评估框架，评估了大型语言模型作为虚拟医生在多轮咨询中的实际能力，通过重构来自美国医疗执照考试的医学多项选择题，提出了一个基准测试集，并开发了综合评估指标。研究结果表明，使用培训集对大型语言模型进行微调，可以减轻幻觉并提高其在所提出基准上的性能。

Sep, 2023

使用 LLMs 探索定性研究

本研究对语言模型（LLMs）的理解能力进行了比较和对照，发现人类分析师和 LLMs 的分类和推理能力存在显著差异，但二者合作可能会产生协同效应，从而丰富了定性研究。

Jun, 2023

XAI4LLM。让机器学习模型和 LLM 合作，提升医疗领域的上下文学习

通过结合医学领域知识，采用多层结构的提示方法实现零 / 少样本上下文学习，并探索用户与大型语言模型的两种交流方式对诊断准确性和风险因素的影响。结果表明，大型语言模型通过域知识和定制化沟通策略能够显著提高诊断流程的准确性。研究还强调了在大型语言模型应用中优化训练样本数量和交流方式以提高准确性并减少偏见的重要性。

May, 2024