Apr, 2025

眼科学中下一个时代推理聚焦的大型语言模型基准测试:对5888项的正面对比评估

TL;DR本研究针对眼科学领域推理聚焦的大型语言模型(LLMs)在决策过程中表现的不确定性进行了深入评估。研究比较了四种最新模型的准确性和推理能力,并发现O1和DeepSeek-R1在准确性上表现突出。此外,模型在文本生成指标上的表现各有千秋,为医疗决策支持提供了重要的参考数据。