用综合专业学习提高政策优化

ICMLJun, 2022

Improving Policy Optimization with Generalist-Specialist Learning

Zhiwei Jia, Xuanlin Li, Zhan Ling, Shuang Liu, Yiran Wu...

TL;DR本文提出了一种新的强化学习通用 - 专业训练框架，通过辅助奖励和权重克隆的方式，将先前的训练经历分为 “通用训练” 和 “专业训练”，以在不同环境下实现最佳政策学习。

Abstract

Generalization in deep reinforcement learning over unseen environment variations usually requires policy learning over a large set of diverse training variations. We empirically observe that an agent trained on m

reinforcement learning policy learning generalist-specialist training framework environment variations auxiliary rewards

发现论文，激发创造

零样本强化学习中的泛化探索

研究如何在强化学习的零样本泛化中，通过训练一个能够有效探索领域的行为策略，来克服先前面临的过拟合问题。该研究通过使用一套名为 “ExpGen” 的算法，在多个 ProcGen 挑战任务中实现了良好的实验效果，尤其是在迷宫和抢劫等与任务可视化相关深度度量难解的情形下。

Jun, 2023

学习无关变量以实现策略泛化

本文研究机器学习领域中的强化学习问题，主要关注于学习能够适应不同环境的策略，探讨数据增强、元学习和对抗训练三种可能的策略泛化方法，发现数据增强方法是有效的，并研究了元学习和对抗学习作为替代的任务不可知方法的潜力。

Sep, 2018

Generalist: 自然与强健泛化的解耦

通过提出基于任务感知的双专家框架 Generalist，将自然泛化和鲁棒泛化分离，为每个领域专业基础学习器选择不同的训练策略，并将它们的参数收集并组合成全局学习器进行训练，最终在自然表现和对抗性表现方面均能获得良好的结果。

Mar, 2023

通过分叉智能体来提高强化学习的泛化性能

本研究提出了受深度神经网络初始化和迁移学习启发的不同初始化技术，探讨其对生态系统方法的速度和效果的影响。

Dec, 2022

半监督强化学习技能泛化

本文研究了如何在有限的标注数据下，通过半监督强化学习及反强化学习等方法，使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果，并评估了该方法在基于图像的控制任务上的表现。

Dec, 2016

深度强化学习的泛化评估

通过引入基准测试和实验协议，我们对深度强化学习中不同泛化方案的优点进行了系统评估，并发现与特定针对泛化的专门方案相比，“vanilla” 深度 RL 算法的泛化能力更强。

Oct, 2018

一个解决方案并不足以满足所有需求：基于结构化的最大熵强化学习的少样本外推

本文提出一种基于多样性推动的强化学习方法，能够学习多种解决任务的行为，从而实现能够适应多变环境和任务的泛化能力，同时，文中理论和实验结果表明，此方法能够产生一个健壮性环境集合。

Oct, 2020

强化学习优化的学习

本篇文章研究了一种数据驱动的元学习方法，使用此方法可以训练出一个能够优化强化学习的通用优化器，而且可以应用于复杂任务。这个优化器的结构大大提高了学习优化器的训练效率，并且已经证明其能够泛化到未知的复杂任务。

Feb, 2023

探究连续深度强化学习中的泛化能力

本文通过深度增强学习模型下的不确定性源和基准测试来研究面临的泛化挑战，并评估了改进泛化性能的几种技术，总结了迄今为止最稳健的技术。

Feb, 2019

深度强化学习中的泛化分析调查

通过利用深度神经网络解决高维状态或动作空间中的问题，强化学习研究在许多领域获得了显著的成功和关注。本文将概述深度强化学习策略遇到过拟合问题从而限制其鲁棒性和泛化能力的基本原因，并形式化和统一不同的解决方法来增加泛化能力并克服状态 - 动作值函数中的过拟合问题。我们相信我们的研究可以为当前深度强化学习的进展提供一个紧凑的系统统一分析，并有助于构建具有改进泛化能力的鲁棒深度神经策略。

Jan, 2024