Mar, 2025

基于Medbench的中国医学大型语言模型基准测试:性能差距与分层优化策略分析

TL;DR本研究针对当前医学大型语言模型在准确性、安全性和伦理一致性方面的不足,提出了一种细致的错误分类法,并分析了前10个模型在MedBench上的表现。通过识别错误类型并揭示症结所在,研究提出了四级优化策略,旨在开发更具临床应用价值的医学LLMs,进而提升AI在高风险医疗环境中的安全性与可信度。