OptiDICE: 通过稳态分布校正估计进行离线策略优化

ICMLJun, 2021

OptiDICE: 通过稳态分布校正估计进行离线策略优化

OptiDICE: Offline Policy Optimization via Stationary Distribution Correction Estimation

Jongmin Lee, Wonseok Jeon, Byung-Jun Lee, Joelle Pineau, Kee-Eung Kim

TL;DR本文提出了一种离线强化学习算法 OptiDICE，通过直接估计最优策略的稳态分布校正来避免过高估计动作值的问题，并使用一系列基准数据集证明了 OptiDICE 与现有最先进方法相比性能具有竞争力。

Abstract

We consider the offline reinforcement learning (RL) setting where the agent aims to optimize the policy solely from the data without further environment interactions. In offline RL, the distributional shift becom

offline reinforcement learning distributional shift optidice stationary distribution corrections model-free algorithms

发现论文，激发创造

COptiDICE: 离线约束强化学习基于稳态分布修正估计

本文提出了一种基于 COptiDICE 的离线约束强化学习算法，该算法直接估计稳态分布的矫正值以优化策略，以满足成本约束，并在实验中表现出更好的约束满足和回报最大化的策略.

Apr, 2022

基于稳态分布校正估计的离线观测学习 - LobsDICE

该论文探究了在缺乏专家行为数据的情况下，通过学习观察结果来模拟专家行为的问题，并提出了一种基于离线学习的算法 LobsDICE，该算法通过优化稳定分布来实现模仿专家策略，并在一系列在线学习任务中表现出色。

Feb, 2022

广义离线估计稳定值

通过基于可变分歧最小化的约束重构，估计了马尔科夫链稳态分布的量，提出了一个简单而有效的算法 GenDICE，在离线 PageRank 和离线政策评估等基准问题上具有强大的实证性能。

Feb, 2020

AlberDICE: 通过交替稳定分布校正估计解决离线多智能体强化学习中的分布外联合动作

AlberDICE 是一种离线多智能体强化学习算法，通过交替进行集中培训和避免选择分布超出参考数据的联合行动，有效地解决了离线多智能体强化学习中的分布偏移问题。

Nov, 2023

DualDICE：行为无关的折现稳态分布修正估计

本研究提出了一种名为 DualDICE 的算法，用于在强化学习应用中的政策评估和训练过程中，对固定数据集进行修正，从而提高精度和性能。

Jun, 2019

将基于模型策略的稳态分布规范化以稳定离线强化学习

该研究针对离线强化学习中策略训练不稳定的问题，通过对当前策略的无折扣平稳分布进行正则化，并训练动力学模型以实现该正则化和更好地估计当前策略的平稳分布，从而减少分布不匹配引起的误差，并在广泛的连续控制离线 RL 数据集上展现出竞争性的性能。

Jun, 2022

GradientDICE: 重新思考广义离线估计方式下的固定值

GradientDICE 提出了一种基于 Perron-Frobenius 定理、采用线性函数逼近来优化不同目标的算法，解决了基于状态分布估计采样分布下密度比的凸凹问题，比 GenDICE 更加稳健且简洁。

Jan, 2020

GO-DICE：目标导向的基于选项感知的离线模仿学习通过稳态分布修正估计

GO-DICE 是一种离线模仿学习技术，用于处理长期目标驱动的顺序任务，通过从示例中分辨子任务的层次结构并分别学习子任务转换和动作执行策略，以实现长期推理。实验结果表明 GO-DICE 优于最近的对照方法，在越来越具有挑战性的 Mujoco 机器人任务的完成率方面有明显改善。此外，GO-DICE 还能够利用不完美的示例和部分任务分割来提高任务的性能。

Dec, 2023

ODICE：通过正交梯度更新揭示分布校正估计之谜

通过在离线强化学习和模仿学习领域中调查 DIstribution Correction Estimation（DICE）方法，本研究发现在训练值函数时，正向梯度和反向梯度有时会产生冲突，提出了一种新的学习规则 —— 正交梯度更新法（O-DICE），该方法能够实现最先进的表现和很高的鲁棒性。

Feb, 2024

通过松弛分布匹配实现离线次优演示的模仿学习

本文提出了一种针对少量优秀数据和大量劣质数据的离线模仿学习问题的解决方案，并且采用了一种松弛的 f - 分布来对策略的支持进行规范化，结果表明在六个标准连续控制环境中，相较于最优先的离线模仿学习方法，本文提出的 RelaxDICE 平均性能提升了 30％以上。

Mar, 2023