EMNLPNov, 2023

具身序列建模中的抽象状态表示的出现

TL;DR通过序列建模决策,目标是模仿语言模型的成功,其中通过建模代理行为来预测。尽管性能可观,但尚不清楚是否通过序列建模产生了代表环境状态信息的内部表示。本研究利用 BabyAI 环境(一个基于语言的导航任务的格子世界),构建了一个以语言指令、行动序列和环境观测作为输入的序列建模 Transformer,并设计了一个 “蒙眼” 导航任务,用于研究抽象状态表示的出现。实验结果显示,通过已训练模型的内部激活,可以合理地重构中间环境布局,并且语言指令对重构准确性起作用。研究结果表明,通过序列建模,可以产生状态表示的许多关键特征,支持将序列建模应用于更复杂的实际决策领域。