Feb, 2025

OphthBench:用于评估大型语言模型在中国眼科学中的综合基准

TL;DR本研究针对大型语言模型(LLMs)在眼科应用中的评估空白,提出了OphthBench,一个专门用于评估LLMs在中国眼科实践中的表现的基准。通过将典型的眼科临床工作流程分为教育、分诊、诊断、治疗和预后等五个关键场景,并设置多种任务和问题,研究揭示了LLMs发展的不足与临床实际应用之间的差距,为未来改进方向提供了明确指导。