本文提出了一种针对少量优秀数据和大量劣质数据的离线模仿学习问题的解决方案,并且采用了一种松弛的 f - 分布来对策略的支持进行规范化,结果表明在六个标准连续控制环境中,相较于最优先的离线模仿学习方法,本文提出的 RelaxDICE 平均性能提升了 30%以上。
Mar, 2023
本研究提出一种名为 ValueDICE 的基于离线数据的策略优化算法,它使用分布匹配方法来提高数据利用效率并优化如何评估专家演示数据的不同媒介投放,实现了在模拟学习测试上的最佳性能。
Dec, 2019
通过在离线强化学习和模仿学习领域中调查 DIstribution Correction Estimation(DICE)方法,本研究发现在训练值函数时,正向梯度和反向梯度有时会产生冲突,提出了一种新的学习规则 —— 正交梯度更新法(O-DICE),该方法能够实现最先进的表现和很高的鲁棒性。
Feb, 2024
GradientDICE 提出了一种基于 Perron-Frobenius 定理、采用线性函数逼近来优化不同目标的算法,解决了基于状态分布估计采样分布下密度比的凸凹问题,比 GenDICE 更加稳健且简洁。
Jan, 2020
该研究探究了 ValueDice 算法在离线和在线设置下相对于经典方法行为克隆的性能改进,发现其离线表现优于行为克隆算法并且可以在低数据情况下通过正则化达到相似的表现。此外,研究还发现,ValueDice 算法存在局限性,只在完整的专家轨迹下才能表现优异。
Feb, 2022
本研究提出了一种名为 DualDICE 的算法,用于在强化学习应用中的政策评估和训练过程中,对固定数据集进行修正,从而提高精度和性能。
Jun, 2019
本文提出了一种离线强化学习算法 OptiDICE,通过直接估计最优策略的稳态分布校正来避免过高估计动作值的问题,并使用一系列基准数据集证明了 OptiDICE 与现有最先进方法相比性能具有竞争力。
Jun, 2021
GO-DICE 是一种离线模仿学习技术,用于处理长期目标驱动的顺序任务,通过从示例中分辨子任务的层次结构并分别学习子任务转换和动作执行策略,以实现长期推理。实验结果表明 GO-DICE 优于最近的对照方法,在越来越具有挑战性的 Mujoco 机器人任务的完成率方面有明显改善。此外,GO-DICE 还能够利用不完美的示例和部分任务分割来提高任务的性能。
Dec, 2023
该论文探究了在缺乏专家行为数据的情况下,通过学习观察结果来模拟专家行为的问题,并提出了一种基于离线学习的算法 LobsDICE,该算法通过优化稳定分布来实现模仿专家策略,并在一系列在线学习任务中表现出色。
本文提出了一种无需使用对抗训练或最大最小优化的离线策略样本高效方法 D2-Imitation,利用 TD 学习和确定性策略简化了学习过程,经实验验证在许多控制任务中比对抗性模仿的离线策略扩展方法更加高效。
Dec, 2021