ICLRMar, 2024

强化学习中的上下文探索与利用

TL;DR在传统的强化学习方法中,基于离线学习的在线策略学习是一种有希望的方法,然而其高昂的计算成本限制了其应用广度。本文提出了一种优化在线策略学习效率的 In-context Exploration-Exploitation (ICEE) 算法,通过在 Transformer 模型中在输入过程中进行探索利用的平衡策略,从而避免了昂贵的显式贝叶斯推断过程,并证明了该算法相比现有方法能以更少的训练时间学习解决新的强化学习任务。