自主学习上下文的自定节奏上下文评估

Jun, 2021

自主学习上下文的自定节奏上下文评估

Self-Paced Context Evaluation for Contextual Reinforcement Learning

Theresa Eimer, André Biedenkapp, Frank Hutter, Marius Lindauer

TL;DR通过自适应学习实现自我生成任务课程，从而提高强化学习智能体的泛化能力并加速训练性能。

Abstract

reinforcement learning (RL) has made a lot of advances for solving a single problem in a given environment; but learning policies that generalize to unseen variations of a problem remains challenging. To improve sample efficiency for learning on such instances of a problem domain, we p

reinforcement learning self-paced learning generalization training performance rl agent

发现论文，激发创造

基于奖励机器的自适应强化学习

本研究提出一种基于奖励机制的自适应学习算法，它可以通过自动生成特定上下文概率分布的课程来提高强化学习的数据效率，并在长期规划任务中取得了可靠的最优行为。

May, 2023

自定学习进度作为规则化学习课程的方法

通过自带课程学习和基于自适应学习的绝对学习进度正则化方法，加速强化学习的计算，提高其效率。

Jun, 2023

自适应上下文强化学习

研究智能自主机器人如何通过新方法中的相对熵奖励学习算法来提高样本效率并使学习扩展到更广泛和尖锐的任务上。

Oct, 2019

自适应多智能体强化学习

本文介绍了自适应多智能体强化学习 (Self-paced MARL)，它可以根据任务的难度自动优化智能体数量，实验结果显示该方法在智能体数量对任务难度有足够影响时可以提高任务表现。

May, 2022

变动动作空间下的环境感知强化学习

基于强化学习算法的学习历史的监督预训练，通过与环境的交互，能够捕捉学习过程并在上下文中改善对新任务的处理。然而，现有文献在上下文泛化到新行为空间方面仍存在差距。本研究旨在开发一种专门用于泛化到新行为空间的架构和训练方法，通过预测行为嵌入来消除对行为数量的依赖，并使用随机嵌入来增加对上下文的语义推理能力和准备测试时的新未见嵌入。通过多臂赌博环境的实验，证明了我们的模型能够在不需要重新训练的情况下达到数据生成算法的性能。

Dec, 2023

面向多智体强化学习的熟练人口课程

该论文介绍了一种名为 SPC 的新型自动课程学习框架，该框架将课程学习应用于多智能体协调中，通过赋予学生团体不变的通信和分层技能，在不同数量的代理任务中学习合作和行为技能，并在学生策略的条件下将老师建模为一个情境式赌博机，提高了 MARL 环境下的性能、可伸缩性和样本效率。

Feb, 2023

自主学习的多任务学习

本文提出了一种新颖的多任务学习框架，称为自适应步进多任务学习，该框架通过同时考虑任务和实例的复杂性来共同学习任务。通过提出一种新的面向任务的正则化器，可以联合优化任务和实例，从而可以解释为多任务学习中的自适应学习器。而且作者还设计了一种简单而有效的算法来优化目标函数。通过对玩具数据集和实际数据集进行实验，结果表明与现有的最先进方法相比，提出的方法具有更好的性能。

Apr, 2016

自适应学习的稀疏编码算法

本文提出了自适应稀疏编码（Self-Paced Sparse Coding，SPSC）框架，可逐步从简单到复杂地包含矩阵元素到编码学习中，以提高其学习鲁棒性并推广到不同层次的自适应学习。试验结果表明了该算法对于处理真实数据的有效性。

Sep, 2017

稀疏奖励的自我模仿强化学习中的排序和多样性增强泛化能力

在自我模仿学习中，我们提出了定制的采样策略，通过优先选择不同类型的转换，并将优先级技术扩展到程序生成的环境中。我们还通过修改来解决因泛化要求和优先级技术引入的偏见对多样性的影响，实验结果显示我们的修改在 MiniGrid-MultiRoom-N12-S10 环境中达到了最新的最好表现。

Nov, 2023

自我预测表示法的数据有效强化学习

本文提出了自回归表示 (Self-Predictive Representations, SPR) 方法，使用深度强化学习方法，并结合自监督目标和对视觉输入和与环境的交互结构的预测，提高了代理器的学习效率，并在 Atari 游戏中显著提高了性能。

Jul, 2020