ICMLMay, 2022

从语言中训练 RL 代理程序查询外部知识

TL;DR本研究提出了基于非参数记忆、指针机制和情节式探索奖励的 AFK 代理,使其能够询问外部语言知识来帮助解决任务,大量实验证明 AFK 代理在挑战性的 Q-BabyAI 和 Q-TextWorld 环境中优于最近的基线。