AgentClinic：评估 AI 在模拟临床环境中的多模态代理基准

May, 2024

AgentClinic：评估 AI 在模拟临床环境中的多模态代理基准

AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments

Samuel Schmidgall, Rojin Ziaei, Carl Harris, Eduardo Reis, Jeffrey Jopling...

TL;DR诊断和治疗患者是一个复杂的、顺序的决策过程，医生需要获取信息并进行相应操作。本研究介绍了 AgentClinic，一个用于评估大型语言模型在模拟临床环境中扮演医生角色能力的多模态基准测试。

Abstract

diagnosing and managing a patient is a complex, sequential decision making process that requires physicians to obtain information -- such

diagnosing managing patient artificial intelligence clinical environments

发现论文，激发创造

CliBench: 临床决策中大型语言模型在诊断、过程、实验室测试和处方方面的多方面评估

将人工智能（AI）与临床诊断过程中的大型语言模型（LLMs）整合，可以显著提高医疗保健的效率和可访问性。本研究通过引入 CliBench—— 一个基于 MIMIC IV 数据集的新型基准测试，评估 LLMs 在临床诊断中的能力，覆盖了多种临床病例的诊断，并包括与临床有关的任务，如治疗程序识别、实验室检查和药物处方等。通过结构化输出本体，CliBench 能够深入了解 LLMs 在不同临床任务上的能力，从而为 LLM 在医疗保健领域的未来发展提供有价值的见解。

Jun, 2024

AI 医院：交互评估和合作使用 LLM 作为实习医生进行临床诊断

大型语言模型（LLMs）在医疗保健领域的应用具有重要意义，为了充分利用其交互潜力，本文提出了 AI Hospital 框架，用于构建实时互动诊断环境，并通过多视角医学评估（MVME）基准和协作机制来验证其可行性和有效性。

Feb, 2024

癌症临床决策中的自主人工智能代理

多模态人工智能系统能够通过解释各种类型的医疗数据来增强临床决策，本研究引入了一种利用大型语言模型作为中央推理引擎的多模态医疗人工智能的替代方法，通过验证该系统在临床肿瘤学场景中的表现，证实了语言模型能够作为专科、以患者为中心的临床助手的有效性。

Apr, 2024

临床实验室：在真实世界中协调多部门临床诊断代理

LLMs 在医学领域中面临精度和可靠性要求严苛的挑战，现有临床评估基准存在诸多限制，为解决这些限制，我们介绍了 ClinicalLab，它包括基于真实病例的 ClinicalBench 评估基准以及用于评估 LLMs 效果的四个新指标（ClinicalMetrics），我们还提出了与现实临床诊断实践相符的综合性临床代理（ClinicalAgent）。

Jun, 2024

面向 LLMs 的临床能力自动评估：度量标准、数据和算法

基于大语言模型的临床能力评估范式，利用自动化评估方法来确保临床方案的安全性和可靠性。

Mar, 2024

CT-Agent: 临床试验多智能体基于大语言模型的推理

一个整合了 GPT-4、多智能体架构、从最少到最多过滤排序和反应推理技术的临床多智能体系统（CT-Agent），在临床试验任务中提高了大语言模型的性能，并引入了新的功能。

Apr, 2024

通过多智能体对话增强诊断准确性：利用大型语言模型减轻认知偏差

通过大型语言模型 (LLMs) 在多智能体框架中的运用，模拟临床决策过程并评估其改善诊断准确性的有效性，以应对临床决策中的认知偏差。

Jan, 2024

Agent Hospital: 可进化的医学代理的医院模拟

该研究介绍了一个名为 Agent Hospital 的医院模拟系统，使用大型语言模型（LLMs）驱动的自主智能代理来治疗疾病，并通过一种名为 MedAgent-Zero 的方法使医生代理学会治疗疾病。实验结果显示，医生代理的治疗表现在各项任务上持续提高，并且在真实医疗基准数据集上取得了 93.06% 的准确率，为 LLM 驱动的代理技术在医疗场景中的应用提供了奠定基础。

May, 2024

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

评估针对患者个性化电子病历问题的 AI 聊天机器人

本文探讨了使用人工智能聊天机器人，基于临床笔记回答特定患者问题的实用性，评估并比较了多种大型语言模型系统（ChatGPT（3.5 和 4 版本），Google Bard 和 Claude）所生成的答案的准确性和相关性。

Jun, 2023