Mar, 2025
MedAgentsBench:针对复杂医学推理的思维模型和代理框架基准测试
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for
Complex Medical Reasoning
TL;DR本研究针对复杂医学问题的评估存在的不足,提出了MedAgentsBench基准,专注于多步骤临床推理、诊断形成与治疗规划等情境。通过对多种基础模型的实验,我们发现最新的思维模型在复杂医学推理任务中表现出色,且高级基于搜索的代理方法展现出优越的性价比,从而推动了医学问答领域的发展。