自定学习进度作为规则化学习课程的方法

Jun, 2023

自定学习进度作为规则化学习课程的方法

Self-Paced Absolute Learning Progress as a Regularized Approach to Curriculum Learning

Tobias Niehues, Ulla Scheler, Pascal Klink

TL;DR通过自带课程学习和基于自适应学习的绝对学习进度正则化方法，加速强化学习的计算，提高其效率。

Abstract

The usability of reinforcement learning is restricted by the large computation times it requires. Curriculum reinforcement learning speeds up learning by defining a helpful order in which an agent encounters task

reinforcement learning curriculum learning absolute learning progress self-paced learning efficiency

发现论文，激发创造

基于奖励机器的自适应强化学习

本研究提出一种基于奖励机制的自适应学习算法，它可以通过自动生成特定上下文概率分布的课程来提高强化学习的数据效率，并在长期规划任务中取得了可靠的最优行为。

May, 2023

自主学习上下文的自定节奏上下文评估

通过自适应学习实现自我生成任务课程，从而提高强化学习智能体的泛化能力并加速训练性能。

Jun, 2021

自适应多智能体强化学习

本文介绍了自适应多智能体强化学习 (Self-paced MARL)，它可以根据任务的难度自动优化智能体数量，实验结果显示该方法在智能体数量对任务难度有足够影响时可以提高任务表现。

May, 2022

无任务特定知识的自主强化学习自我监督课程生成

提出了一种新颖的自主强化学习算法，能够根据智能体的学习进展生成自适应课程，使智能体能够高效地解决稀疏奖励迷宫导航任务，同时减少了手动复位。

Nov, 2023

自适应学习：一种隐式正则化的视角

本论文研究了一个新的自适应学习方法 —— 自适应隐式规则化器，并提出了用于该方法的通用框架。该框架使用基于凸共轭理论的隐式损失函数学习最小化函数，从而能够更好地权衡避免过拟合和学习难度逐渐加大之间的关系。同时，研究还发现该方法与半二次优化方法的关系，并通过实验验证了其正确性和有效性。

Jun, 2016

面向多智体强化学习的熟练人口课程

该论文介绍了一种名为 SPC 的新型自动课程学习框架，该框架将课程学习应用于多智能体协调中，通过赋予学生团体不变的通信和分层技能，在不同数量的代理任务中学习合作和行为技能，并在学生策略的条件下将老师建模为一个情境式赌博机，提高了 MARL 环境下的性能、可伸缩性和样本效率。

Feb, 2023

深度强化学习的自动课程学习：简要调查

本文介绍了自动课程学习（ACL）的相关文献，并对当前状态进行了概述，旨在促进现有概念的交叉和新思想的出现。ACL 是深度强化学习成功的中坚力量，可用于改善样本效率和渐进性能，组织探索，鼓励泛化或解决稀疏奖励问题，等等。

Mar, 2020

基于精度的课程学习在深度强化学习中的应用

本文研究了一种基于精度要求自适应选择的自动课程学习的新形式。使用基于 Deep Deterministic Policy Gradient 算法的强化学习代理和解决 Reacher 环境，我们首先展示了随机采样不同精度要求训练的代理比一直很精确的代理学习更加高效；然后，我们展示了基于局部能力进度的自适应精度要求选择可以自动生成一个难度不断递增的课程，从而提高学习效率。

Jun, 2018

自适应上下文强化学习

研究智能自主机器人如何通过新方法中的相对熵奖励学习算法来提高样本效率并使学习扩展到更广泛和尖锐的任务上。

Oct, 2019

GRIMGEP: 视觉深度强化学习中鲁棒目标采样的进展学习

提出了一种框架，可以使代理能够自主识别和忽略干扰区域，从而在可学习区域中寻找新颖性，改善整体表现并避免灾难性遗忘。实验表明，代理利用该框架成功地识别了环境的有趣区域，并在性能上取得了极大的改善。

Aug, 2020