ICLRFeb, 2024

ODICE:通过正交梯度更新揭示分布校正估计之谜

TL;DR通过在离线强化学习和模仿学习领域中调查 DIstribution Correction Estimation(DICE)方法,本研究发现在训练值函数时,正向梯度和反向梯度有时会产生冲突,提出了一种新的学习规则 —— 正交梯度更新法(O-DICE),该方法能够实现最先进的表现和很高的鲁棒性。