BriefGPT.xyz
大模型
Ask
alpha
关键词
medical benchmark
搜索结果 - 5
多项选择题与大型语言模型:以虚构医疗数据为例的案例研究
利用模拟医学考题的方法评估大型语言模型在医学领域的表现,发现传统的多项选择题评估方法可能无法准确测量其临床知识和推理能力,而更强调其模式识别技能。这项研究强调了需要更强劲的评估方法,以更好地评估大型语言模型在医学背景下的真实能力。
PDF
a month ago
EMNLP
MedEval:多层次、多任务、多领域的医学文本模型评估基准
为了促进医疗语言模型的发展,本文介绍了一个多层次、多任务和多领域的医疗基准数据集 MedEval,包含来自多个医疗系统的数据,跨越了 8 种检查模式的 35 个人体区域。我们对 10 个通用和领域特定的语言模型进行了系统评估,并发现语言模型
→
PDF
8 months ago
CMB:中文综合医学基准
提出了一个基于中文和本土文化框架的本地化医学基准评估工具 CMB,用于评估各类大型语言模型,包括中文和医学领域的模型,旨在促进在中国医学领域中普及和改进大型语言模型。
PDF
a year ago
ExplainCPE:中华人民共和国执业药师考试自由文本解释基准
本文介绍了 ExplainCPE 这一具有挑战性的 Simplified Chinese 医学基准,用于评估模型生成解释的能力。研究分析了 ChatGPT 和 GPT-4 在该数据集上的表现,指出了当前 LLMs 在理解文本和计算推理方面的
→
PDF
a year ago
ChatGPT 在神经病理性疼痛诊断中的因果探索表现
探究 ChatGPT 对因果发现问题的回答能力,使用医学基准(Tu et al. 2019)进行测试,并发现其在自然语言交互方面的卓越能力。
PDF
a year ago
Prev
Next