LLM-Mini-CEX: 大型语言模型的自动评估用于诊断对话

Aug, 2023

LLM-Mini-CEX: 大型语言模型的自动评估用于诊断对话

LLM-Mini-CEX: Automatic Evaluation of Large Language Model for Diagnostic Conversation

Xiaoming Shi, Jie Xu, Jinru Ding, Jiali Pang, Sichen Liu...

TL;DR为了提高诊断效率，增强医疗诊断的技术潜力，我们建立了一种评估标准 (LLM-specific Mini-CEX)，通过自动对话评估与 ChatGPT 的交互并替代人工评估，可以有效评估医疗诊断对话和比较不同 LLMs 之间的质量。

Abstract

There is an increasing interest in developing llms for medical diagnosis to improve diagnosis efficiency. Despite their alluring technological potential, there is no unified and comprehensive →

llms medical diagnosis evaluation criterion diagnostic dialogues chatgpt

发现论文，激发创造

大型语言模型多轮医疗咨询自动评估框架

该研究介绍了一种自动评估框架，评估了大型语言模型作为虚拟医生在多轮咨询中的实际能力，通过重构来自美国医疗执照考试的医学多项选择题，提出了一个基准测试集，并开发了综合评估指标。研究结果表明，使用培训集对大型语言模型进行微调，可以减轻幻觉并提高其在所提出基准上的性能。

Sep, 2023

面向 LLMs 的临床能力自动评估：度量标准、数据和算法

基于大语言模型的临床能力评估范式，利用自动化评估方法来确保临床方案的安全性和可靠性。

Mar, 2024

大型语言模型作为自动对话评估器的有效性综合分析

自动对话评估的研究中，大型语言模型、神经度量指标以及元评估数据集的应用，以及模型层次和维度层次的集成对评估性能的影响进行了全面的研究。

Dec, 2023

评估基于 LLM 生成的医学图像和症状分析的多模态诊断

该研究提出了一种包括多步骤评估法的大型语言模型（LLM）评估范例，通过结构化的交互方式进行多模态 LLM 评估，并通过获取交互数据进行后续领域特定的分析，以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM，使用多模态多项选择题评估其在病理学领域的医学诊断准确性，结果表明其约有 84% 的正确诊断，同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview，还可应用于评估其他 LLMs 的准确性和实用性，以进一步优化其应用。

Jan, 2024

语言模型在医疗应用中容易受到患者错误自我诊断的影响

大语言模型在医疗保健领域逐渐变得越来越重要，它可作为一种潜在工具，帮助临床医生、研究人员和患者之间进行沟通。然而，对医学考试问题上的 LLMs 进行传统评估并不能反映真实患者和医生之间互动的复杂性，其中引入了患者自我诊断的情况。本研究通过修改美国医学考试中的多项选择题，将患者的自诊断报告纳入其中，提出了多种 LLMs。研究结果表明，当患者提出错误的偏见验证信息时，LLMs 的诊断准确性显著下降，自诊断存在较高的错误敏感性。

Sep, 2023

请用英语问我：用于医疗问题的大型语言模型的跨语评估

本文提供了一个框架来研究 LLMs 作为多语言对话系统在医疗查询中的有效性。通过对英语、西班牙语、中文和印地语等四种主要全球语言的广泛实验和算法与人工评估相结合的策略，我们发现 LLMs 在这些语言中的回答存在明显差异，表明需要增强跨语言能力。我们进一步提出了一种用于检测 LLMs 在医疗环境中多语言能力的跨语言基准。研究结果强调了增强这些模型的跨语言能力以及提供一个对所有人可访问的公平信息生态系统的紧迫性。

Oct, 2023

CliBench: 临床决策中大型语言模型在诊断、过程、实验室测试和处方方面的多方面评估

将人工智能（AI）与临床诊断过程中的大型语言模型（LLMs）整合，可以显著提高医疗保健的效率和可访问性。本研究通过引入 CliBench—— 一个基于 MIMIC IV 数据集的新型基准测试，评估 LLMs 在临床诊断中的能力，覆盖了多种临床病例的诊断，并包括与临床有关的任务，如治疗程序识别、实验室检查和药物处方等。通过结构化输出本体，CliBench 能够深入了解 LLMs 在不同临床任务上的能力，从而为 LLM 在医疗保健领域的未来发展提供有价值的见解。

Jun, 2024

评估医学应用中的大型语言模型：一项调研

综述医学领域中大型语言模型评估的现状、挑战以及将其负责地整合到临床实践中所需的持续研究和创新。

May, 2024

LLM-Eval：用于大型语言模型开放域对话的统一多维自动评估

本文提出了 LLM-Eval，一种针对使用大型语言模型（LLM）的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面，LLM-Eval 可以在单个模型调用中进行。我们对 LLM-Eval 在各种基准数据集上的性能进行了全面评估，表明它相对于最先进的评估方法具有高效性和适应性。同时，该分析还强调了选择适当的 LLM 和解码策略以获得准确评估结果的重要性。LMM-Eval 为评估开放领域对话系统提供了一种多功能且强大的解决方案，可以简化评估过程并在不同场景中提供一致的性能。

May, 2023

通用到医疗应用的大型语言模型调查：数据集、方法论和评估

大型语言模型（LLMs）在各种自然语言处理任务中表现出令人惊讶的性能。最近，结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs，并提供了指导各种医学应用的 LLMs 发展的方法。

Jun, 2024