ExplainCPE：中华人民共和国执业药师考试自由文本解释基准

May, 2023

ExplainCPE：中华人民共和国执业药师考试自由文本解释基准

ExplainCPE: A Free-text Explanation Benchmark of Chinese Pharmacist Examination

Dongfang Li, Jindi Yu, Baotian Hu, Zhenran Xu, Min Zhang

TL;DR本文介绍了 ExplainCPE 这一具有挑战性的 Simplified Chinese 医学基准，用于评估模型生成解释的能力。研究分析了 ChatGPT 和 GPT-4 在该数据集上的表现，指出了当前 LLMs 在理解文本和计算推理方面的局限性。作者还发现在不同上下文中学习的 LLMs 有着不同的喜好。作者的研究旨在引起人们对 AI 安全性和可信赖性的关注，以探索 LLMs 在医学领域解释性方面的潜力。

Abstract

As ChatGPT and GPT-4 spearhead the development of large language models (LLMs), more researchers are investigating their performance across various tasks. But more research needs to be done on the interpretability capab

large language models interpretability capabilities explaincpe medical benchmark ai safety

发现论文，激发创造

在 CMExam 上对大型语言模型进行基准测试 —— 一份综合的中文医学考试数据集

通过引入 CMExam 数据集，该研究在医学领域中解决了对大型语言模型进行评估的挑战，同时还通过对 CMExam 的深入分析，详细介绍了 LLMs 在中国医学中的表现和挑战。

Jun, 2023

MedExQA：具备多重解释的医学问答基准

本研究介绍了 MedExQA，这是一个用于评估大型语言模型对医学知识的理解能力的新型基准，通过构建涵盖五个不同医学专业的数据集，并且为每个问题 - 答案对提供多个解释，填补了当前医学问答基准的一个重要空白，即缺乏模型生成细致医学解释的全面评估。我们的工作强调了医学语言模型可解释性的重要性，提出了一个评估模型超越分类准确性的有效方法，并在特定领域 —— 言语病理学中，揭示了当前 GPT4 等语言模型理解能力不足的问题。我们的结果表明，使用多个解释进行生成评估更符合人类评估结果，提供了一个更稳健的自动理解评估机制的机会。为了丰富开源的医学语言模型（目前主要基于 Llama2），我们还提出了一种新的医学模型 MedPhi-2，基于 Phi-2 (2.7B)。该模型在生成解释方面的性能优于基于 Llama2-70B 的医学语言模型，展示了它在资源受限的医学领域的有效性。我们将分享我们的基准数据集和训练好的模型。

Jun, 2024

ChiMed-GPT：具备全面训练机制且更符合人类偏好的中文医学大型语言模型

近年来，对优质医疗服务的需求日益增长，凸显了医疗基础设施中的差异。随着大数据，特别是文本，成为医疗服务的基石，迫切需要专为医疗领域量身定制的有效自然语言处理（NLP）解决方案。我们提出了 ChiMed-GPT，这是一个专为中国医疗领域设计的新型基准大语言模型，其上下文长度扩展为 4,096 个标记，并经历了全面的预训练、有监督微调和强化学习高强度训练过程。在信息提取、问题回答和对话生成等真实世界任务中的评估结果表明，ChiMed-GPT 在医疗领域的性能优于一般领域的大语言模型。此外，通过要求 ChiMed-GPT 执行涉及对患者歧视的态度评定，我们分析了可能存在的偏见，以促进医疗领域大语言模型的负责任开发。代码和模型已经在此 URL 发布。

Nov, 2023

使用知识增强的生成预训练模型通过中国医学执照考试

本文提出一种嵌入医疗领域知识和启用 Few-shot Learning 的方法，以迎合需要广泛的领域专业知识和语义知识（如医疗保健）的领域的需求。利用一种简单但有效的检索方法，本文高效提取医学背景知识以引导 ChatGPT 的推理和寻答的逻辑。我们的知识增强模型在 CNMLE-2022 上取得了高分 70，且不仅能够通过 CNMLE 考试但是还超越了人类的平均分数（61），这证明了知识增强 ChatGPT 作为多功能医疗助手的潜力，能够以更易于使用和适应的方式分析现实世界的医学问题。

May, 2023

MedGPTEval: 一份用于评估大型医学语言模型响应的数据集和基准测试

通过对 LLMs 进行基于交互式医疗对话的实验评估，设计了一套涵盖医疗专业能力、社会综合能力、语境能力和计算机稳健性等方面的 16 个指标的评价标准，并针对这些标准选取了 ChatGPT, ERNIE Bot 和 Doctor PuJiang 三个聊天机器人进行了盲测试比较，其中 Doctor PuJiang 在多回合医疗对话和实证报告情景下表现最优。

May, 2023

探索 ChatGPT 对中医知识的理解

使用大型语言模型研究中医药学领域的知识召回和综合推理能力，通过 TCM-QA 数据集评估 LLM 在零样本和少样本设置下的表现，讨论中英提示的差异，结果显示 ChatGPT 在判断题中取得最高精度 0.688，多选题中最低精度为 0.241，中文提示在评估中表现更好，同时评估 ChatGPT 生成的解释质量及其对中医药学知识理解的潜在贡献，为 LLM 在专业领域的适用性提供了有价值的见解，并促进了未来基于这些强大模型推进中医药学研究的方向。

Mar, 2024

GPT-4 在医疗挑战问题上的能力

通过对 USMLE 和 MultiMedQA 基准数据集的全面评估，我们发现不需要专门的提示造型来激发 GPT-4，它的表现超过了 USMLE 的合格分数约 20 分，并表现优于早期的通用模型（GPT-3.5）以及专门针对医学知识进行细化调整的模型（Med-PaLM，Flan-PaLM540B 的提示调整版本）。

Mar, 2023

大型语言模型是否是真正的全才医护人员？超越医生考试进行健康专业基准测试

通过引入 “中文医务人员考试”（EMPEC），我们在传统中文领域提出了一个规模庞大的医疗知识基准，它由 157,803 个考试题目组成，涵盖 124 个科目和 20 个医疗专业，包括眼科医生和听力学家等被较少涉及的职业。我们的实验表明，尽管 GPT-4 等领先模型的准确率超过 75％，但它们在特殊领域和替代医学方面仍然存在困难。意外的是，通用领域的大型语言模型表现优于专门的医疗模型，并且融入 EMPEC 的训练数据显著提高了性能。此外，模型在训练截止日期后发布的问题上的结果与整体性能趋势一致，说明测试集上的模型表现可以预测其解决未见过的与医疗相关的查询的效果。传统汉字向简化汉字的过渡对模型性能影响微乎其微，表明其具有强大的语言适应性。我们的研究强调了扩大基准范围以涵盖更广泛的医疗职业的重要性，以更好地评估大型语言模型在实际医疗场景中的适用性。

Jun, 2024

PharmacyGPT：AI 药师

通过评估 PharmacyGPT 在临床药学领域中的应用潜力和限制，并为未来的人工智能驱动医疗解决方案的发展提供有价值的见解，我们旨在促进人工智能在医疗环境中负责任且有效的使用。

Jul, 2023

CGCE: 一个用于普及和金融领域的中文生成式聊天评估基准

引入中文生成式聊天评估基准（CGCE）基准，旨在评估和比较生成模型。该基准由 200 个一般领域问题和 150 个专业财务领域问题组成，可评估精确性、条理性、表达清晰度和完成度等因素，为研究人员提供标准框架，促进自然语言生成研究的发展。

May, 2023