任意经验的模仿:强化学习和模仿学习方法的双重统一
通过使用一种通用的原始对偶框架,将经典优化和控制理论与基于值和演员 - 评论家强化学习方法结合,本研究旨在统一和整合现有技术,并为学习的策略施加附加约束。构建出的 $ exttt {DualCRL}$ 算法支持各种策略约束的组合,在训练过程中使用可训练的奖励修改实现自动处理,实验证明了该方法的有效性,并为系统设计者提供了多种策略约束的工具箱。
Apr, 2024
本文提出了一种基于线性规划的原对偶优化方法,该方法针对有限时间或使用表格的强 RL 范式有较强的理论保证,采用函数近似和最小数据集假设解决了无限时间范式的算法问题,并在更具挑战性的平均回报设置下进行了分析。
May, 2023
本论文主要探讨凸对偶性的基本概念,重点关注最通用且超级有用的 Fenchel-Rockafellar 对偶性,总结了如何将此对偶性应用于各种强化学习(RL)场景中,包括策略评估或优化、在线或离线学习,以及折现或未折现奖励。
Jan, 2020
本文针对自主制约智能方面存在的困境进行研究,主要研究如何应用 Primal-Dual 方法使其具有收敛性。通过探究多目标收益函数,多目标学习和多目标值函数相结合等方法的局限性,提出 Primal-Dual 算法。与其他算法不同,本方法可以在把冲突目标转化为受限制 RL 问题后得到实际的最优解,具有收敛性,并且可以扩展到一些神经网络模型上。
Oct, 2019
本文介绍 Upside Down Reinforcement Learning (UDRL) 算法,它使用监督学习实现了强化学习的目标,并可以适用于多种强化学习环境,具有非常广泛的适用性。
Feb, 2022
通过拉格朗日方法、元梯度以及基于成本违规的交替梯度等多种方法,我们在考虑轨迹成本约束的情况下成功匹配了专家分布,并且在实证研究中证明了我们的元梯度方法具有最佳性能。
Mar, 2024
本文研究提出了基于结果条件的模仿学习方法与强化学习中的奖励最大化问题之间的关系,并证明了现有方法并不一定能够改善策略,但是通过一些简单的修改得到的方法可以保证策略的改进。
Jun, 2022