Jun, 2024
大型语言模型在数值和语义医学知识方面的性能表现:基于循证问题与答案的基准评估
Performance of large language models in numerical vs. semantic medical
knowledge: Benchmarking on evidence-based Q&As
TL;DR临床问题解决需要处理语义医学知识,如疾病描述和诊断测试的数值医学知识进行循证决策。因此,我们评估了大型语言模型(LLMs)在数值和语义问题类型上的表现,并将其与人类进行比较。研究发现,LLMs在语义问题上的表现优于数值问题,在不同的医学方面存在差距,仍然不及人类,因此应该谨慎对待它们的医疗建议。