广义离线估计稳定值

ICLRFeb, 2020

GenDICE: Generalized Offline Estimation of Stationary Values

Ruiyi Zhang, Bo Dai, Lihong Li, Dale Schuurmans

TL;DR通过基于可变分歧最小化的约束重构，估计了马尔科夫链稳态分布的量，提出了一个简单而有效的算法 GenDICE，在离线 PageRank 和离线政策评估等基准问题上具有强大的实证性能。

Abstract

An important problem that arises in reinforcement learning and Monte Carlo methods is estimating quantities defined by the stationary distribution of a markov chain. In many real-world applications, access to the

reinforcement learning monte carlo methods markov chain estimation gendice algorithm

发现论文，激发创造

GradientDICE: 重新思考广义离线估计方式下的固定值

GradientDICE 提出了一种基于 Perron-Frobenius 定理、采用线性函数逼近来优化不同目标的算法，解决了基于状态分布估计采样分布下密度比的凸凹问题，比 GenDICE 更加稳健且简洁。

Jan, 2020

OptiDICE: 通过稳态分布校正估计进行离线策略优化

本文提出了一种离线强化学习算法 OptiDICE，通过直接估计最优策略的稳态分布校正来避免过高估计动作值的问题，并使用一系列基准数据集证明了 OptiDICE 与现有最先进方法相比性能具有竞争力。

Jun, 2021

DualDICE：行为无关的折现稳态分布修正估计

本研究提出了一种名为 DualDICE 的算法，用于在强化学习应用中的政策评估和训练过程中，对固定数据集进行修正，从而提高精度和性能。

Jun, 2019

COptiDICE: 离线约束强化学习基于稳态分布修正估计

本文提出了一种基于 COptiDICE 的离线约束强化学习算法，该算法直接估计稳态分布的矫正值以优化策略，以满足成本约束，并在实验中表现出更好的约束满足和回报最大化的策略.

Apr, 2022

批量稳态分布估计

提出了一种基于变分幂方法的一致估计器，用于估计马尔可夫链的稳态分布，其不需要进一步访问基础的系统。它不仅统一了许多现有方法，还在众多问题中提供了显着更好的估计，包括：队列，随机微分方程，后处理 MCMC 和试验性评估。

Mar, 2020

将基于模型策略的稳态分布规范化以稳定离线强化学习

该研究针对离线强化学习中策略训练不稳定的问题，通过对当前策略的无折扣平稳分布进行正则化，并训练动力学模型以实现该正则化和更好地估计当前策略的平稳分布，从而减少分布不匹配引起的误差，并在广泛的连续控制离线 RL 数据集上展现出竞争性的性能。

Jun, 2022

基于稳态分布校正估计的离线观测学习 - LobsDICE

该论文探究了在缺乏专家行为数据的情况下，通过学习观察结果来模拟专家行为的问题，并提出了一种基于离线学习的算法 LobsDICE，该算法通过优化稳定分布来实现模仿专家策略，并在一系列在线学习任务中表现出色。

Feb, 2022

通过正则化拉格朗日算子进行离策略评估

通过将 distribution correction estimation (DICE) 家族的估计器作为相同线性规划的正则化拉格朗日乘子统一起来，我们扩展了 DICE 估计器的空间到新的替代方案，分析了估计器的扩展空间，发现双重解决方案在优化稳定性和估计偏差之间的权衡方面提供了更大的灵活性，并在实践中通常提供更好的估计。

Jul, 2020

AlberDICE: 通过交替稳定分布校正估计解决离线多智能体强化学习中的分布外联合动作

AlberDICE 是一种离线多智能体强化学习算法，通过交替进行集中培训和避免选择分布超出参考数据的联合行动，有效地解决了离线多智能体强化学习中的分布偏移问题。

Nov, 2023

CoinDICE：离线策略下置信区间估计

本研究提出了一种新的算法 CoinDICE，用于估计目标策略的价值的置信区间，有效地解决了强化学习中关于行为无关离线评估的问题。

Oct, 2020