Mar, 2021

具有 Fisher 散度批判正则化的离线强化学习

TL;DR该篇研究提出了一种新颖的离线强化学习算法- Fisher-BRC,它使用神经网络学习参数,将既有离线数据的行为策略与网络学习的行为策略结合起来,实现了更快的收敛速度和更好的表现。