双向模型基策略优化
本文研究模型在强化学习算法中的使用,旨在解决生成数据的容易程度与模型生成数据的偏差之间的平衡问题。作者提出了一种基于模型的强化学习算法,并探讨了模型在策略优化中的作用。实践中,作者发现模型生成的在线策略数据总是不如真实的离线数据。然而,通过将模型泛化能力的经验估计纳入到分析中,可以证明模型的使用是合理的。最后,作者展示了一种简单的方法,使用从真实数据中分支的短模型生成滚动数据,具有比其他基于模型的方法更好的样本效率,可以匹配最佳无模型算法的渐近性能,并能处理其它基于模型的算法不能处理的问题。
Jun, 2019
本文旨在提高多智能体控制的数据效率,采用基于模型的学习方式,通过多个代理通过本地通信进行合作完成任务,实现分散的基于模型的策略优化框架,提出了扩展的价值函数,理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似,并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。
Jul, 2022
探究建模强化学习方法中真实和模拟数据之间的分布差异所带来的性能下降问题,并提出了一种全新的模型自适应框架 AMPO,使用 Wasserstein-1 距离来实现模型适应,结果在多项连续控制测试任务中实现了最先进的性能。
Oct, 2020
设计和推导出具有性能提升保证的高效的基于模型的强化学习算法具有挑战性,主要原因是模型学习和策略优化之间的高耦合。在本文中,我们理论上推导了一种优化目标,能够统一模型漂移和模型偏差,并制定了一种微调过程。该过程自适应地调整模型更新,以获得性能改进保证,同时避免模型过拟合。基于这些,我们开发了一种简单的算法 USB-PO(Unified model Shift and model Bias Policy Optimization)。实证结果表明,USB-PO 在几个具有挑战性的基准任务上实现了最先进的性能。
Sep, 2023
解决不确定性对于自主系统在现实世界中的可靠适应至关重要。我们提出了一种模型不确定性的连续 Bayes-Adaptive Markov Decision Process(BAMDP)算法,其中代理人维护潜在模型参数的后验分布,并相对于该信念分布最大化其预期长期回报。我们的算法建立在最新的策略优化算法之上,以学习通用策略,以最大化贝叶斯价值函数的探索 - 开发权衡。为了应对从离散化连续潜在参数空间带来的挑战,我们提出了一种新的策略网络体系结构,可将信念分布独立于可观察状态地编码。我们的方法显着优于没有明确考虑信念分布而解决模型不确定性的算法,并且与现有的部分可观测马尔可夫决策过程求解器竞争力相当。
Oct, 2018
本文提出一种置信度感知的双向离线模型想象算法,使用训练好的双向动力学模型和推进策略来扩充离线数据集,以增强在线学习的推广能力。实验结果表明,该算法显著提高了现有模型无关的线下 RL 算法的性能,并与基线方法相比获得了竞争性或更好的得分。
Jun, 2022
我们提出了一个简单而有效的基于模型的离线强化学习框架 ORPO,通过提倡更多的离群值扩展,基于乐观的 MDP 生成乐观模型推演用于悲观的离线策略优化,并在理论上证明 ORPO 训练出的策略在线性 MDP 中具有下界,实验结果显示我们的框架在广泛应用的基准测试中显著优于 P-MDP 基线,尤其在需要泛化的问题上表现出明显优势。
Jan, 2024
本文通过将 Janner 等人 (2019) 提出的定理扩展,分析了基于模型的元强化学习方法的性能保证,并提出了具有性能保证的 Meta-Model-Based Meta-Policy Optimization (M3PO),证明 M3PO 在连续控制基准测试中优于现有的元强化学习方法。
Jun, 2020
通过对直接优化偏好和基于奖励模型的策略优化的比较,该研究发现使用足够的无偏好数据进行策略优化能够显著提高性能,并且 RMB-PO + 方法表现最佳。
Dec, 2023