Mar, 2024

网络学习和游戏中 LLM 代理的后悔案例研究

TL;DR通过对大型语言模型代理在决策中的性能进行度量,我们提出通过性能指标 “遗憾” 在在线学习和博弈论的基准决策情景中研究它们的交互,以更好地了解这些交互环境中 LLM 代理的局限性。