Mar, 2025

经济评估:在未知环境中对LLM代理的基准和试金石测试

TL;DR本研究解决了LLM代理在未知环境中采取行动、学习与探索的能力不足的问题。作者提出了基于经济学关键问题的决策任务基准和新型量化测量方法试金石测试,利用合成生成的可扩展难度来评估LLM代理的能力和倾向。研究的主要发现是,这些基准和测试能够有效评估LLM代理在复杂经济问题中的表现,为其在经济中的应用提供了重要支持。