ICMLMay, 2024

从词语到行动:揭示 LLM 驱动的自主系统的理论基础

TL;DR从理论角度出发,研究大型语言模型在物理世界中解决决策问题的原因,通过层次化强化学习模型,证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习,并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。