Mar, 2025
RefactorBench:通过代码评估语言智能体中的状态推理
RefactorBench: Evaluating Stateful Reasoning in Language Agents Through
Code
TL;DR本研究针对语言模型(LM)智能体在进行多文件重构任务时的能力限制问题,引入了RefactorBench基准,包含100个复杂的重构任务。该基准通过对状态的表征进行条件适配,显著提升了LM智能体的任务解决能力,展示出研究在智能体理解和高效编程中的重要性。