基于稳态分布校正估计的离线观测学习 - LobsDICE

Feb, 2022

基于稳态分布校正估计的离线观测学习 - LobsDICE

LobsDICE: Offline Learning from Observation via Stationary Distribution Correction Estimation

Geon-Hyeong Kim, Jongmin Lee, Youngsoo Jang, Hongseok Yang, Kee-Eung Kim

TL;DR该论文探究了在缺乏专家行为数据的情况下，通过学习观察结果来模拟专家行为的问题，并提出了一种基于离线学习的算法 LobsDICE，该算法通过优化稳定分布来实现模仿专家策略，并在一系列在线学习任务中表现出色。

Abstract

We consider the problem of learning from observation (LfO), in which the agent aims to mimic the expert's behavior from the state-only demonstrations by experts. We additionally assume that the agent cannot interact with the environment but has access to the action-labeled transition d

learning from observation offline setting lfo algorithm stationary distributions imitation learning

发现论文，激发创造

OptiDICE: 通过稳态分布校正估计进行离线策略优化

本文提出了一种离线强化学习算法 OptiDICE，通过直接估计最优策略的稳态分布校正来避免过高估计动作值的问题，并使用一系列基准数据集证明了 OptiDICE 与现有最先进方法相比性能具有竞争力。

Jun, 2021

GO-DICE：目标导向的基于选项感知的离线模仿学习通过稳态分布修正估计

GO-DICE 是一种离线模仿学习技术，用于处理长期目标驱动的顺序任务，通过从示例中分辨子任务的层次结构并分别学习子任务转换和动作执行策略，以实现长期推理。实验结果表明 GO-DICE 优于最近的对照方法，在越来越具有挑战性的 Mujoco 机器人任务的完成率方面有明显改善。此外，GO-DICE 还能够利用不完美的示例和部分任务分割来提高任务的性能。

Dec, 2023

基于原始 Wasserstein 状态占有匹配的离线观察仿真

通过使用观察结果进行离线学习，我们提出一种新的方法称为 Primal Wasserstein DICE，通过最小化原始 Wasserstein 距离来改进分布校正估计，并在多个测试平台上进行实证评估。

Nov, 2023

COptiDICE: 离线约束强化学习基于稳态分布修正估计

本文提出了一种基于 COptiDICE 的离线约束强化学习算法，该算法直接估计稳态分布的矫正值以优化策略，以满足成本约束，并在实验中表现出更好的约束满足和回报最大化的策略.

Apr, 2022

基于观测的离策略模仿学习

本文提出了一个基于观察学习的学习方法，包括分布匹配、离线策略学习和倒置动作模型，能够在性能和样本效率上与最先进的方法相媲美。

Feb, 2021

基于观测和示例的离线模仿的简明解决方案：可能包含不完整轨迹

提出了一种从观测中进行离线模仿的方法，并使用轨迹感知的加权行为克隆策略，提高了鲁棒性和效果。

Nov, 2023

通过松弛分布匹配实现离线次优演示的模仿学习

本文提出了一种针对少量优秀数据和大量劣质数据的离线模仿学习问题的解决方案，并且采用了一种松弛的 f - 分布来对策略的支持进行规范化，结果表明在六个标准连续控制环境中，相较于最优先的离线模仿学习方法，本文提出的 RelaxDICE 平均性能提升了 30％以上。

Mar, 2023

AlberDICE: 通过交替稳定分布校正估计解决离线多智能体强化学习中的分布外联合动作

AlberDICE 是一种离线多智能体强化学习算法，通过交替进行集中培训和避免选择分布超出参考数据的联合行动，有效地解决了离线多智能体强化学习中的分布偏移问题。

Nov, 2023

广义离线估计稳定值

通过基于可变分歧最小化的约束重构，估计了马尔科夫链稳态分布的量，提出了一个简单而有效的算法 GenDICE，在离线 PageRank 和离线政策评估等基准问题上具有强大的实证性能。

Feb, 2020

ODICE：通过正交梯度更新揭示分布校正估计之谜

通过在离线强化学习和模仿学习领域中调查 DIstribution Correction Estimation（DICE）方法，本研究发现在训练值函数时，正向梯度和反向梯度有时会产生冲突，提出了一种新的学习规则 —— 正交梯度更新法（O-DICE），该方法能够实现最先进的表现和很高的鲁棒性。

Feb, 2024