May, 2023

ExplainCPE:中华人民共和国执业药师考试自由文本解释基准

TL;DR本文介绍了 ExplainCPE 这一具有挑战性的 Simplified Chinese 医学基准,用于评估模型生成解释的能力。研究分析了 ChatGPT 和 GPT-4 在该数据集上的表现,指出了当前 LLMs 在理解文本和计算推理方面的局限性。作者还发现在不同上下文中学习的 LLMs 有着不同的喜好。作者的研究旨在引起人们对 AI 安全性和可信赖性的关注,以探索 LLMs 在医学领域解释性方面的潜力。