BriefGPT.xyz
Ask
alpha
关键词
clinical vignettes
搜索结果 - 2
估计大型语言模型置信度的方法
评估测量大型语言模型(LLMs)在复杂医学任务中提供诊断建议时的置信度的方法,结果发现 SC Agreement Frequency 是测量 GPT4 置信度最有用的方法。
PDF
7 months ago
GPT-4 到 GPT-3.5:' 把手术刀借我一用 '—— OpenAI GPT 在整形外科住院医师培训考试上的水平研究
本文研究通过多种选择题对 GPT-4 的能力进行评估,结果表明 GPT-4 在完成整形外科住院医师培训考试上,表现大幅提升,未来采用多模态输入,可以在以下考试中实现超人类表现。
PDF
a year ago
Prev
Next