基于贝叶斯优化的课程学习提升自主驾驶深度强化学习方法的环境鲁棒性

Dec, 2023

基于贝叶斯优化的课程学习提升自主驾驶深度强化学习方法的环境鲁棒性

Improving Environment Robustness of Deep Reinforcement Learning Approaches for Autonomous Racing Using Bayesian Optimization-based Curriculum Learning

PDF

Rohan Banerjee, Prishita Ray, Mark Campbell

TL;DR通过贝叶斯优化进行概率推理的课程学习方法在自主赛车避障领域表现优于基准的深度强化学习代理与手工设计的课程。

Abstract

deep reinforcement learning (RL) approaches have been broadly applied to a large number of robotics tasks, such as robot manipulation and autonomous driving. However, an open problem in deep RL is learning policies that are robust to variations in the environment, which is an important

deep reinforcement learning curriculum learning generalization performance probabilistic inference bayesian optimization

发现论文，激发创造

朝向最优头对头自主赛车的课程加强学习

头对头自主赛车的最优策略研究中，我们提出了一个基于课程学习的框架来逐步过渡到更复杂的真实环境，以教授强化学习代理一个更接近最优策略的方法，并提出了基于控制屏障函数的安全强化学习算法，既能有效保证代理的安全性又不会牺牲策略的最优性。

Aug, 2023

强化学习中的师生课程学习

提出了一种基于师生课程学习的强化学习方法，该方法独立于人类领域知识和手动课程设置，可以改善学生的样本效率和通用性。

Oct, 2022

通过引导机缘式课程的自助强化学习

论文提出了一种新颖的灵活的对抗课程学习框架 Bootstrapped Opportunistic Adversarial Curriculum Learning (BCL)，通过对先前阶段的多次运行的最高质量解决方案进行保守自举，并机遇地跳过课程，实现了学习策略对对抗扰动的鲁棒性。实验表明，在 Pong 游戏中，该框架可使所学策略对最大 255 倍的扰动具有稳健性；相比之下，现有最佳方法只能承受最大 5 倍的对抗噪声。

Jun, 2022

基于精度的课程学习在深度强化学习中的应用

本文研究了一种基于精度要求自适应选择的自动课程学习的新形式。使用基于 Deep Deterministic Policy Gradient 算法的强化学习代理和解决 Reacher 环境，我们首先展示了随机采样不同精度要求训练的代理比一直很精确的代理学习更加高效；然后，我们展示了基于局部能力进度的自适应精度要求选择可以自动生成一个难度不断递增的课程，从而提高学习效率。

Jun, 2018

连续参数环境下深度强化学习课程学习的教师算法

本研究探讨如何使用教师算法使得未知的深度强化学习算法的学习在不同的环境中变得能够拓展。研究表明，教师算法可以通过学习生成一系列逐步采样的参数来控制生成的随机过程环境，使其最终有效地提高学生的知识水平。通过建立连续赌博问题的代理模型，我们提出了一种新算法来建模绝对学习进展。我们还针对 DRL 算法进行了全面的研究，通过对 BipedalWalker 环境的参数化变体，我们研究了算法快速个性化建立不同学生的学习计划的效率，以及对可学环境 / 不可学环境的比率的鲁棒性，以及对于高维参数空间的可扩展性

Oct, 2019

改进社交机器人导航的强化学习训练方式

自主移动机器人在人类空间中导航必须遵守社会规范。本研究提出了一种使用课程学习来改善强化学习社交导航方法的泛化性能的方法。通过使用多种环境类型和多种动力学模型对行人进行建模，逐步增加训练的多样性和难度。研究结果表明，与之前的训练方法相比，使用课程学习进行训练可以取得更好的泛化性能。此外，我们还验证了训练方法在比训练中使用的更大更拥挤的测试环境中的有效性，从而对模型的性能进行更有意义的衡量。

Aug, 2023

课程学习中任务排序的优化框架

本文研究了如何通过选择不同目标函数，使用课程学习在强化学习中优化任务序列，提高初始性能，减少探索过程中的次优动作，并发现更好的策略。

Jan, 2019

强化学习中的课程表政策学习

本文研究课程学习在强化学习中的应用，并针对多个传递学习算法扩展已有的课程设计方法，通过学习 MDP（Markov Decision Process) 过程中的课程策略，得出可以用于训练代理人的课程，进而实现更快或同等方法的学习效率。

Dec, 2018

加速机器人学习接触丰富的操纵：一个课程学习研究

本研究结合课程学习和域随机化方法，探究如何快速应用于机器人接触式操作任务中，实现在工业装配等领域中的快速学习和短时间内达到高成功率。研究结果表明，本文所提出的方法在工业插入任务中取得了最多 86% 的成功率，并且使用样本训练的时间不到以往的五分之一。

Apr, 2022

开放式世界中的学习课程

该论文介绍了一种称为无监督环境设计（UED）的方法，通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性，从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力，这些自生成的环境课程为不断生成和掌握自主设计的额外挑战的开放式学习系统提供了有希望的路径。

Dec, 2023