Mar, 2025
AgentOrca:评估语言代理在操作规范和约束遵循方面的双系统框架
AgentOrca: A Dual-System Framework to Evaluate Language Agents on
Operational Routine and Constraint Adherence
TL;DR本研究针对语言代理在遵循操作程序和约束方面的可靠性不足问题,提出了AgentOrca框架。该框架通过自然语言提示和可执行代码编码操作约束及程序,采用自动化的测试用例生成与评估方法,量化分析当前语言代理的遵循情况。研究显示,先进模型在遵循操作约束方面存在显著的性能差距,尤其是在复杂约束或用户劝说尝试时表现不佳。