Sep, 2022

软动作先验:实现强化学习中的稳健策略转移

TL;DR通过引入动作先验,结合奖励整形和辅助正则化损失的方法,该论文提出了一种适应性算法,可以高效地利用先验知识,特别是软动作先验,取得了在 Reinforcement Learning 问题上的最新成果和深度 RL 的鲁棒性改进。