EPOpt: 使用模型集成学习稳健的神经网络策略

ICLROct, 2016

EPOpt: 使用模型集成学习稳健的神经网络策略

EPOpt: Learning Robust Neural Network Policies Using Model Ensembles

Aravind Rajeswaran, Sarvjeet Ghotra, Balaraman Ravindran, Sergey Levine

TL;DR通过采用一种集成学习算法和源域适应方法，EPOpt 算法试图克服用深度神经网络等丰富函数逼近器学习现实任务策略时遇到的复杂度和安全等难点，并能够学习到更健壮和更好的广义目标领域策略。

Abstract

Sample complexity and safety are major challenges when learning policies with reinforcement learning for real-world tasks, especially when the policies are represented using rich function approximators like deep

reinforcement learning function approximators model-based methods ensemble learning source domain adaptation

发现论文，激发创造

走向应用强化学习：通过策略集提高泛化能力和样本利用率

本文介绍了一种名为 Ensemble Proximal Policy Optimization (EPPO) 的强化学习算法，它使用了集成学习方法和多元策略组合优化，采用策略空间多样性增强正则化，可以更好地解决在实际场景中的噪声、环境变化等问题，具有更高效、更鲁棒的性能。

May, 2022

模型集成信任区域策略优化

通过使用深度神经网络同时学习模型和策略，我们分析了基于模型的增强学习方法的行为，并展示出学习到的策略倾向于利用模型学习不足的区域，导致训练不稳定。为了解决这个问题，我们提出使用模型集合来维护模型的不确定性并规范学习过程，并进一步展示，与 “Backpropagation through time” 相比，使用 “likelihood ratio” 导数可以获得更加稳定的学习。通过我们的方法 ME-TRPO，在具有挑战性的连续控制基准任务中，显著减少了比基于模型的深度 RL 方法所需的样本数量。

Feb, 2018

SEERL: 高效率样本集成强化学习

本文提出了一种新的训练和模型选择框架，用于模型无关的强化学习算法，使用单次训练的策略集合。这些策略通过定向扰动模型参数在一定时间间隔内进行学习，选择一个足够多样化的策略集合对于得到一个好的集成模型来说是必需的。该框架具有显著的样本效率和低计算成本，且在 Atari 2600 和 Mujoco 中表现优异。

Jan, 2020

基于模型的策略优化与无监督模型适应

探究建模强化学习方法中真实和模拟数据之间的分布差异所带来的性能下降问题，并提出了一种全新的模型自适应框架 AMPO，使用 Wasserstein-1 距离来实现模型适应，结果在多项连续控制测试任务中实现了最先进的性能。

Oct, 2020

从观测数据中学习最优策略

本文通过控制实验方法和观察性数据建立了最优决策的理论模型，并利用域对抗神经网络的方法进行决策选择，从而在处理缺失反事实和选择偏差方面取得了较好的效果。

Feb, 2018

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

深度强化学习中的对抗策略优化

本文提出了一种新的强化学习算法 APO，该算法利用 max-min 博弈理论减轻数据扩充带来的过拟合问题，提高了学习策略的效率，并对几个 DeepMind 控制机器人环境的高维度和噪声状态设置进行了评估。实证结果表明，我们的方法 APO 在性能上始终优于最先进的基于策略的 PPO 代理，并且与最先进的数据增强，RAD 和基于正式的 DRAC 等方法进行了比较。

Apr, 2023

在线少样本策略迁移原型对齐

研究了强化学习领域的领域自适应问题，提出了一种基于功能相似性的在线原型对齐框架 (OPA)，该框架能够在少数几周期内实现策略转移，即使从目标域获得的样本数量很少，也能表现出更好的转移性能。

Jun, 2023

适应性学习的快速神经网络集成的认识建模不确定性

在航空航天工程系统的高效设计探索中，使用嵌入仿真器的神经网络，并充分利用多样化数据源对多个模型实现进行训练，以评估由于训练样本不足而引起的认知建模不确定性，并在目标导向的自适应学习中提供关键信息。然而，由于集成模型的训练成本往往变得禁止并带来计算上的挑战，所以本研究提出使用快速神经网络范例的新型嵌入仿真器的神经网络，通过应用线性回归技术仅调整最后一层的连接权重，以在几乎即时训练的情况下保持预测准确性。该方法在多个分析实例和通用高超声速飞行器的航空参数研究中得到了验证。

Sep, 2023

线性复合模型集合在强化学习中的样本复杂度

本研究提出一种强化学习算法，使用一组预先训练的不准确模拟器的状态依赖线性组合来逼近真实环境，并且在未知参数数量的多项式样本复杂度下，无需状态空间或动作空间大小的限制下可获得近似最优策略，同时还讨论了模型选择时的困难情况并提供了一种经过证明的有效算法。

Oct, 2019