Aug, 2023

开源大型语言模型 GPT-4 和 Claude 2 的比较研究:肾脏病学中的多项选择测试

TL;DR该研究调查了大型语言模型(LLMs)在内科专科多项选择测试能力方面的医学知识能力,与 GPT-4 和 Claude 2 相比,当前广泛使用的开源 LLMs 在零 - shot 推理能力方面表现不佳。