Mar, 2024

文本环境中的强化学习智能体的语言引导探索

TL;DR通过使用预训练语言模型(称为 GUIDE)为强化学习代理(称为 EXPLORER)提供决策级别的指导,我们引入了 Language Guided Exploration(LGE)框架,并观察到 LGE 在具有挑战性的文本环境中显著优于传统强化学习代理、行为克隆和文本决策转换等先进方法。