利用上下文结构生成有用的辅助任务

Mar, 2023

利用上下文结构生成有用的辅助任务

Exploiting Contextual Structure to Generate Useful Auxiliary Tasks

Benedict Quartey, Ankit Shah, George Konidaris

TL;DR通过生成和学习有用的辅助任务，最大化经验重用，从而学习解决给定任务的方法，通过计数推理和离线策略方法同时学习这些辅助任务，从而实现多任务强化学习的新框架。

Abstract

reinforcement learning requires interaction with an environment, which is expensive for robots. This constraint necessitates approaches that work with limited environmental interaction by maximizing the reuse of previous experiences. We propose an approach that maximizes experience reu

reinforcement learning environment interaction auxiliary tasks multitask learning counterfactual reasoning

发现论文，激发创造

通过生成和测试发现辅助任务

本文介绍了一种基于表示学习思想的强化学习辅助任务发现方法，通过不断生成新的辅助任务并保留具有较高效用性的任务来提高数据效率，并引入了一种反映辅助任务效用的衡量标准。实现的算法在多种环境下显著优于随机任务和手动设计的任务。

Oct, 2022

比较强化学习表征学习的辅助任务

生成表示在强化学习中得到了稳步流行，由于其在提高样本效率和许多环境中的回报方面的潜力。本文对常见的辅助任务进行了比较，基于数百个使用最先进的离策略强化学习算法训练的代理程序。发现显示，辅助任务的表示学习对于维度和复杂度较高的环境是有利的，并且学习环境动态性胜于预测奖励。我们相信这些洞察将使其他研究人员能够更明智地决定如何利用表示学习解决他们的特定问题。

Oct, 2023

自适应上下文强化学习

研究智能自主机器人如何通过新方法中的相对熵奖励学习算法来提高样本效率并使学习扩展到更广泛和尖锐的任务上。

Oct, 2019

使用无监督辅助任务的强化学习

该论文介绍了一种深度强化学习代理，它不仅能够直接最大化累积奖励，在共同的表现下还能同时最大化许多其他伪奖励函数，该代理基于不受外部奖励影响的无监督学习得到共同的表现，并对外部奖励进行关注，可以快速适应实际任务，在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。

Nov, 2016

无任务离线强化学习的潜在计划

本研究提出了一种层次化的方法，将模仿学习和离线强化学习的优点相结合，学习从高维相机观察中获得与任务无关的长时程策略，并通过技能链接来合并潜在的行为先验，以达到以前未见的技能组合，从而更好地控制机器人的实验结果。

Sep, 2022

基于变分逆强化学习的多任务可迁移奖励学习

利用生成对抗网络框架下的多任务环境下的赋能制约技术，从无标记的专家示例中同时学习可转移的多任务奖励函数和策略，并证明其比现有的模仿学习方法具有更好的性能和数据效率。

Jun, 2022

基于上下文表示的多任务强化学习

提出一种多任务学习的方法，通过元数据构建可组合且可解释的表示，从而改进多任务学习性能，并在一个包含 50 个不同机器人操作任务的具有挑战性的多任务基准 Meta-World 上实现了最先进的结果。

Feb, 2021

强化学习中有用的辅助任务是什么：研究目标策略的影响

本研究研究探讨在强化学习中，作为表示学习的辅助任务（auxiliary tasks）的目标策略（target policy）对主任务（main task）学习的影响，实证结果表明，贪心策略的辅助任务往往有效，而在所有策略中，甚至包括均匀随机策略，通常都比基线更有效。与其他策略相比，主任务策略往往不太有效。

Apr, 2022

基于情境的自监督机器人学习中的虚拟目标

研究了机器人如何通过无监督学习和条件目标设定模型自主地学习和实践行为，从而掌握丰富的技能和处理不同的任务和环境。

Oct, 2019

强化学习智能体自动生成目标

提出了一种基于 Adversarial training 的方法，用于 Reinforcement learning 中任务发现的问题，可以实现在不需要任何先验环境知识的情况下，对多元化任务的高效自动学习，并且能够解决传统上存在的稀疏奖励问题。

May, 2017