GradientDICE 提出了一种基于 Perron-Frobenius 定理、采用线性函数逼近来优化不同目标的算法,解决了基于状态分布估计采样分布下密度比的凸凹问题,比 GenDICE 更加稳健且简洁。
Jan, 2020
本文提出了一种离线强化学习算法 OptiDICE,通过直接估计最优策略的稳态分布校正来避免过高估计动作值的问题,并使用一系列基准数据集证明了 OptiDICE 与现有最先进方法相比性能具有竞争力。
Jun, 2021
本研究提出了一种名为 DualDICE 的算法,用于在强化学习应用中的政策评估和训练过程中,对固定数据集进行修正,从而提高精度和性能。
Jun, 2019
本文提出了一种基于 COptiDICE 的离线约束强化学习算法,该算法直接估计稳态分布的矫正值以优化策略,以满足成本约束,并在实验中表现出更好的约束满足和回报最大化的策略.
Apr, 2022
提出了一种基于变分幂方法的一致估计器,用于估计马尔可夫链的稳态分布,其不需要进一步访问基础的系统。它不仅统一了许多现有方法,还在众多问题中提供了显着更好的估计,包括:队列,随机微分方程,后处理 MCMC 和试验性评估。
Mar, 2020
该研究针对离线强化学习中策略训练不稳定的问题,通过对当前策略的无折扣平稳分布进行正则化,并训练动力学模型以实现该正则化和更好地估计当前策略的平稳分布,从而减少分布不匹配引起的误差,并在广泛的连续控制离线 RL 数据集上展现出竞争性的性能。
Jun, 2022
该论文探究了在缺乏专家行为数据的情况下,通过学习观察结果来模拟专家行为的问题,并提出了一种基于离线学习的算法 LobsDICE,该算法通过优化稳定分布来实现模仿专家策略,并在一系列在线学习任务中表现出色。
Feb, 2022
通过将 distribution correction estimation (DICE) 家族的估计器作为相同线性规划的正则化拉格朗日乘子统一起来,我们扩展了 DICE 估计器的空间到新的替代方案,分析了估计器的扩展空间,发现双重解决方案在优化稳定性和估计偏差之间的权衡方面提供了更大的灵活性,并在实践中通常提供更好的估计。
Jul, 2020
AlberDICE 是一种离线多智能体强化学习算法,通过交替进行集中培训和避免选择分布超出参考数据的联合行动,有效地解决了离线多智能体强化学习中的分布偏移问题。
Nov, 2023
本研究提出了一种新的算法 CoinDICE,用于估计目标策略的价值的置信区间,有效地解决了强化学习中关于行为无关离线评估的问题。
Oct, 2020