通过概率模型为基础的元强化学习实现数据高效的任务泛化

Nov, 2023

通过概率模型为基础的元强化学习实现数据高效的任务泛化

Data-Efficient Task Generalization via Probabilistic Model-based Meta Reinforcement Learning

Arjun Bhardwaj, Jonas Rothfuss, Bhavya Sukhija, Yarden As, Marco Hutter...

TL;DRPACOH-RL 是一种基于模型的元强化学习算法，用于有效地适应控制策略对变化的动力学。它通过元学习动力学模型的先验知识来实现对新动力学的快速适应，同时利用正则化和认知不确定性量化来引导探索和数据收集，从而在数据有限的情况下实现正向传递，适用于机器人等领域。实验结果表明，PACOH-RL 在适应新动力学条件方面优于基于模型的强化学习和基于模型的元强化学习基准，并在真实的机器人车中展示了在数据稀缺条件下实现高效强化学习策略自适应的潜力。

Abstract

We introduce pacoh-rl, a novel model-based meta-reinforcement learning (Meta-RL) algorithm designed to efficiently adapt control policies to changing →

pacoh-rl meta-reinforcement learning dynamics adaptation uncertainty quantification

发现论文，激发创造

PACOH: PAC-Guarantees 贝叶斯优化元学习

本文在 PAC-Bayesian 框架下进行理论分析，推导出元学习的新型广义界限，发展了一种 PAC-optimal 的元学习算法并在基学习器中应用高斯过程和贝叶斯神经网络，结果预测准确性和不确定性估计质量均达到了最佳性能。

Feb, 2020

基于模型的离线元强化学习与正则化

该研究论文介绍了一种基于模型的元强化学习方法 ——MerPO，使用正则化策略优化来实现任务结构推断和元策略安全探索。该方法通过探究 “探索” 元策略的分布情况和 “利用” 离线数据集的紧密度之间的平衡，对元强化学习算法进行了改进，并在实验中取得了优异的表现。

Feb, 2022

深度强化学习下的模型预测行动者 - 评论家算法：加速机器人技能获取

介绍了一种基于模型预测控制的混合模型学习和无模型学习方法，名为 MoPAC，通过探索 / 利用以减轻模型偏差，可以实现真实机器人的训练。该方法使用优化轨迹指导策略学习，并且在需要时进行探索。通过实验，MoPAC 方法优于当前最先进的方法，适用于真实机器人的训练，同时为物体夹取、操作和重新夹取等复杂任务提供了一种优化技能学习的解决方案。

Mar, 2021

基于偏好的快速适应元强化学习

本研究基于元强化学习框架，探究了在人机交互中，通过基于偏好的反馈，而非数值奖励，在少数试验中快速调整策略以适应新任务的机制，并通过信息论技术设计问题序列来最大化人类专家的信息获取效率，实验结果表明其显著优于传统算法。

Nov, 2022

基于元模型的元策略优化

本文通过将 Janner 等人 (2019) 提出的定理扩展，分析了基于模型的元强化学习方法的性能保证，并提出了具有性能保证的 Meta-Model-Based Meta-Policy Optimization (M3PO)，证明 M3PO 在连续控制基准测试中优于现有的元强化学习方法。

Jun, 2020

有限训练任务下的元强化学习 —— 一种密度估计方法

本研究探讨使用密度估计技术，直接学习任务分布并在其上训练策略以最大化回报，从而实现元强化学习的有效性问题，结果表明，与基于历史策略的学习方法相比，我们的方法具有更好的效果，特别是在任务分布存在低维流形的情况下。

Jun, 2022

高效自动化深度强化学习

本文提出了一种基于群体的自动化强化学习（AutoRL）框架，该框架在优化超参数和神经网络结构的同时训练智能体，提高了元优化的采样效率。在 MuJoCo 基准套件中的 TD3 算法中，我们将元优化所需的环境交互次数减少了一个数量级。

Sep, 2020

通过学习学习算法实现更灵活的 PAC-Bayesian 元学习

我们介绍了一个新的框架，使用 PAC-Bayesian 理论来研究元学习方法。该框架相比以往的工作的主要优势在于它允许在任务之间的知识转移方面更加灵活。我们的框架的灵活性使其适用于分析广泛范围的元学习机制，甚至设计新的机制。除了理论贡献外，我们还通过经验证明我们的框架提高了实际元学习机制的预测质量。

Feb, 2024

约束元不可知强化学习

Meta-Reinforcement Learning (Meta-RL) aims to acquire meta-knowledge for quick adaptation to diverse tasks. Our novel approach, Constraint Model Agnostic Meta Learning (C-MAML), merges meta learning with constrained optimization to enable rapid and efficient task adaptation, demonstrating effectiveness in simulated locomotion with wheeled robot tasks of varying complexity.

Jun, 2024

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017