软 DICE 用于模仿学习：重思离线策略分布匹配

Jun, 2021

软 DICE 用于模仿学习：重思离线策略分布匹配

SoftDICE for Imitation Learning: Rethinking Off-policy Distribution Matching

Mingfei Sun, Anuj Mahajan, Katja Hofmann, Shimon Whiteson

TL;DRSoftDICE 是一种采用熵正则化的离线算法，用于解决样本有效的模仿学习中的分布匹配问题，其表现取得了 Mujoco 基准任务上的最佳结果。

Abstract

We present softdice, which achieves state-of-the-art performance for imitation learning. softdice fixes several key problems in ValueDICE,

softdice imitation learning distribution matching sample efficiency mujoco benchmark

发现论文，激发创造

通过松弛分布匹配实现离线次优演示的模仿学习

本文提出了一种针对少量优秀数据和大量劣质数据的离线模仿学习问题的解决方案，并且采用了一种松弛的 f - 分布来对策略的支持进行规范化，结果表明在六个标准连续控制环境中，相较于最优先的离线模仿学习方法，本文提出的 RelaxDICE 平均性能提升了 30％以上。

Mar, 2023

通过离策略分布匹配实现的模仿学习

本研究提出一种名为 ValueDICE 的基于离线数据的策略优化算法，它使用分布匹配方法来提高数据利用效率并优化如何评估专家演示数据的不同媒介投放，实现了在模拟学习测试上的最佳性能。

Dec, 2019

ODICE：通过正交梯度更新揭示分布校正估计之谜

通过在离线强化学习和模仿学习领域中调查 DIstribution Correction Estimation（DICE）方法，本研究发现在训练值函数时，正向梯度和反向梯度有时会产生冲突，提出了一种新的学习规则 —— 正交梯度更新法（O-DICE），该方法能够实现最先进的表现和很高的鲁棒性。

Feb, 2024

GradientDICE: 重新思考广义离线估计方式下的固定值

GradientDICE 提出了一种基于 Perron-Frobenius 定理、采用线性函数逼近来优化不同目标的算法，解决了基于状态分布估计采样分布下密度比的凸凹问题，比 GenDICE 更加稳健且简洁。

Jan, 2020

重新思考 ValueDice：它真的可以提高性能吗？

该研究探究了 ValueDice 算法在离线和在线设置下相对于经典方法行为克隆的性能改进，发现其离线表现优于行为克隆算法并且可以在低数据情况下通过正则化达到相似的表现。此外，研究还发现，ValueDice 算法存在局限性，只在完整的专家轨迹下才能表现优异。

Feb, 2022

DualDICE：行为无关的折现稳态分布修正估计

本研究提出了一种名为 DualDICE 的算法，用于在强化学习应用中的政策评估和训练过程中，对固定数据集进行修正，从而提高精度和性能。

Jun, 2019

OptiDICE: 通过稳态分布校正估计进行离线策略优化

本文提出了一种离线强化学习算法 OptiDICE，通过直接估计最优策略的稳态分布校正来避免过高估计动作值的问题，并使用一系列基准数据集证明了 OptiDICE 与现有最先进方法相比性能具有竞争力。

Jun, 2021

GO-DICE：目标导向的基于选项感知的离线模仿学习通过稳态分布修正估计

GO-DICE 是一种离线模仿学习技术，用于处理长期目标驱动的顺序任务，通过从示例中分辨子任务的层次结构并分别学习子任务转换和动作执行策略，以实现长期推理。实验结果表明 GO-DICE 优于最近的对照方法，在越来越具有挑战性的 Mujoco 机器人任务的完成率方面有明显改善。此外，GO-DICE 还能够利用不完美的示例和部分任务分割来提高任务的性能。

Dec, 2023

基于稳态分布校正估计的离线观测学习 - LobsDICE

该论文探究了在缺乏专家行为数据的情况下，通过学习观察结果来模拟专家行为的问题，并提出了一种基于离线学习的算法 LobsDICE，该算法通过优化稳定分布来实现模仿专家策略，并在一系列在线学习任务中表现出色。

Feb, 2022

确定性判别式模仿 (D2 - 模仿): 重新审视对抗模仿以提高样本效率

本文提出了一种无需使用对抗训练或最大最小优化的离线策略样本高效方法 D2-Imitation，利用 TD 学习和确定性策略简化了学习过程，经实验验证在许多控制任务中比对抗性模仿的离线策略扩展方法更加高效。

Dec, 2021