ICMLMay, 2023

基于表示的强化学习

TL;DR提出了一个基于表示的强化学习框架,使用来自上下文强化学习的技术来指导探索和利用。通过在线性特征空间中嵌入策略网络,将勘探利用问题转化为表示利用问题,这样好的策略表示能够实现最佳勘探。通过应用于进化和策略梯度方法,本框架比传统方法具有显著提高的性能。该框架提供了关于强化学习的新视角,突出了策略表示在确定最佳勘探利用策略方面的重要性。