Jan, 2025

SR-奖励:走一条更常走的路

TL;DR本文提出了一种从离线示例中直接学习奖励函数的新方法,解决了传统逆强化学习中奖励函数与学习者策略的对抗互动问题。该方法利用后继表示(SR)编码状态,联合贝尔曼方程学习奖励函数,从而与强化学习算法并行训练,取得了与真实奖励的离线强化学习算法和模仿学习方法竞争的结果,同时展示了SR-奖励在稳定性和效率上的优势。