ODICE：通过正交梯度更新揭示分布校正估计之谜

ICLRFeb, 2024

ODICE：通过正交梯度更新揭示分布校正估计之谜

ODICE: Revealing the Mystery of Distribution Correction Estimation via Orthogonal-gradient Update

Liyuan Mao, Haoran Xu, Weinan Zhang, Xianyuan Zhan

TL;DR通过在离线强化学习和模仿学习领域中调查 DIstribution Correction Estimation（DICE）方法，本研究发现在训练值函数时，正向梯度和反向梯度有时会产生冲突，提出了一种新的学习规则 —— 正交梯度更新法（O-DICE），该方法能够实现最先进的表现和很高的鲁棒性。

Abstract

In this study, we investigate the distribution correction estimation (DICE) methods, an important line of work in offline reinforcement learning (RL) and →

distribution correction estimation offline reinforcement learning imitation learning dice-based methods orthogonal-gradient updates

发现论文，激发创造

OptiDICE: 通过稳态分布校正估计进行离线策略优化

本文提出了一种离线强化学习算法 OptiDICE，通过直接估计最优策略的稳态分布校正来避免过高估计动作值的问题，并使用一系列基准数据集证明了 OptiDICE 与现有最先进方法相比性能具有竞争力。

Jun, 2021

GradientDICE: 重新思考广义离线估计方式下的固定值

GradientDICE 提出了一种基于 Perron-Frobenius 定理、采用线性函数逼近来优化不同目标的算法，解决了基于状态分布估计采样分布下密度比的凸凹问题，比 GenDICE 更加稳健且简洁。

Jan, 2020

GO-DICE：目标导向的基于选项感知的离线模仿学习通过稳态分布修正估计

GO-DICE 是一种离线模仿学习技术，用于处理长期目标驱动的顺序任务，通过从示例中分辨子任务的层次结构并分别学习子任务转换和动作执行策略，以实现长期推理。实验结果表明 GO-DICE 优于最近的对照方法，在越来越具有挑战性的 Mujoco 机器人任务的完成率方面有明显改善。此外，GO-DICE 还能够利用不完美的示例和部分任务分割来提高任务的性能。

Dec, 2023

DualDICE：行为无关的折现稳态分布修正估计

本研究提出了一种名为 DualDICE 的算法，用于在强化学习应用中的政策评估和训练过程中，对固定数据集进行修正，从而提高精度和性能。

Jun, 2019

软 DICE 用于模仿学习：重思离线策略分布匹配

SoftDICE 是一种采用熵正则化的离线算法，用于解决样本有效的模仿学习中的分布匹配问题，其表现取得了 Mujoco 基准任务上的最佳结果。

Jun, 2021

COptiDICE: 离线约束强化学习基于稳态分布修正估计

本文提出了一种基于 COptiDICE 的离线约束强化学习算法，该算法直接估计稳态分布的矫正值以优化策略，以满足成本约束，并在实验中表现出更好的约束满足和回报最大化的策略.

Apr, 2022

基于稳态分布校正估计的离线观测学习 - LobsDICE

该论文探究了在缺乏专家行为数据的情况下，通过学习观察结果来模拟专家行为的问题，并提出了一种基于离线学习的算法 LobsDICE，该算法通过优化稳定分布来实现模仿专家策略，并在一系列在线学习任务中表现出色。

Feb, 2022

通过正则化拉格朗日算子进行离策略评估

通过将 distribution correction estimation (DICE) 家族的估计器作为相同线性规划的正则化拉格朗日乘子统一起来，我们扩展了 DICE 估计器的空间到新的替代方案，分析了估计器的扩展空间，发现双重解决方案在优化稳定性和估计偏差之间的权衡方面提供了更大的灵活性，并在实践中通常提供更好的估计。

Jul, 2020

通过松弛分布匹配实现离线次优演示的模仿学习

本文提出了一种针对少量优秀数据和大量劣质数据的离线模仿学习问题的解决方案，并且采用了一种松弛的 f - 分布来对策略的支持进行规范化，结果表明在六个标准连续控制环境中，相较于最优先的离线模仿学习方法，本文提出的 RelaxDICE 平均性能提升了 30％以上。

Mar, 2023

AlberDICE: 通过交替稳定分布校正估计解决离线多智能体强化学习中的分布外联合动作

AlberDICE 是一种离线多智能体强化学习算法，通过交替进行集中培训和避免选择分布超出参考数据的联合行动，有效地解决了离线多智能体强化学习中的分布偏移问题。

Nov, 2023