ICLRFeb, 2024
ODICE:通过正交梯度更新揭示分布校正估计之谜
ODICE: Revealing the Mystery of Distribution Correction Estimation via Orthogonal-gradient Update
Liyuan Mao, Haoran Xu, Weinan Zhang, Xianyuan Zhan
TL;DR通过在离线强化学习和模仿学习领域中调查 DIstribution Correction Estimation(DICE)方法,本研究发现在训练值函数时,正向梯度和反向梯度有时会产生冲突,提出了一种新的学习规则 —— 正交梯度更新法(O-DICE),该方法能够实现最先进的表现和很高的鲁棒性。