通过生成和测试发现辅助任务

Oct, 2022

Auxiliary task discovery through generate-and-test

Banafsheh Rafiee, Sina Ghiassian, Jun Jin, Richard Sutton, Jun Luo...

TL;DR本文介绍了一种基于表示学习思想的强化学习辅助任务发现方法，通过不断生成新的辅助任务并保留具有较高效用性的任务来提高数据效率，并引入了一种反映辅助任务效用的衡量标准。实现的算法在多种环境下显著优于随机任务和手动设计的任务。

Abstract

In this paper, we explore an approach to auxiliary task discovery in reinforcement learning based on ideas from representation learning. Auxiliary tasks tend to improve →

auxiliary task discovery representation learning meta-learning data efficiency task utility

发现论文，激发创造

强化学习中有用的辅助任务是什么：研究目标策略的影响

本研究研究探讨在强化学习中，作为表示学习的辅助任务（auxiliary tasks）的目标策略（target policy）对主任务（main task）学习的影响，实证结果表明，贪心策略的辅助任务往往有效，而在所有策略中，甚至包括均匀随机策略，通常都比基线更有效。与其他策略相比，主任务策略往往不太有效。

Apr, 2022

比较强化学习表征学习的辅助任务

生成表示在强化学习中得到了稳步流行，由于其在提高样本效率和许多环境中的回报方面的潜力。本文对常见的辅助任务进行了比较，基于数百个使用最先进的离策略强化学习算法训练的代理程序。发现显示，辅助任务的表示学习对于维度和复杂度较高的环境是有利的，并且学习环境动态性胜于预测奖励。我们相信这些洞察将使其他研究人员能够更明智地决定如何利用表示学习解决他们的特定问题。

Oct, 2023

利用上下文结构生成有用的辅助任务

通过生成和学习有用的辅助任务，最大化经验重用，从而学习解决给定任务的方法，通过计数推理和离线策略方法同时学习这些辅助任务，从而实现多任务强化学习的新框架。

Mar, 2023

AANG：自动辅助学习

通过提出的自动化管道方法，我们演示了辅助学习目标如何帮助数据获取困难或高度复杂的任务，并使在自然语言处理领域的预训练模型上的持续训练实验产生了强大的改进。

May, 2022

发现有用问题的辅助任务

这篇文章提出了一种基于元梯度的全局价值函数（GVFs）发现方法，从而让强化学习（RL）代理能够发现自身的问题并通过学习答案来获得未预期的有用知识和技能，在 Atari 2600 电子游戏中，这些辅助任务通过与主任务一起元学习的方式可以提高一个演员 - 评论家代理的数据效率。

Sep, 2019

隐式微分辅助学习

本文提出了一种基于隐式微分的新框架 AuxiLearn，针对多任务学习中设计有用的辅助任务和将辅助任务组合成一个连贯的损失函数的挑战，当已知有用的辅助任务时，可以学习一个网络将所有损失合并成一个连贯的目标函数，并且能够学习任务之间的非线性交互；当不知道有用的辅助任务时，可以学习一个生成有意义的新辅助任务的网络。在图像分割和低数据情况下学习属性等多个任务和领域中，AuxiLearn 均表现出比竞争方法更为出色的性能。

Jun, 2020

Proto-Value Networks: 辅助任务扩展表示学习的规模

本研究通过增加辅助任务来提高深度强化学习代理学习到的表征，特别是通过基于后继度量的辅助任务建立的对象 proto-value networks 学习代理的丰富表征，实验结果表明 proto-value networks 可以在仅进行少量与环境奖励交互的情况下，使用线性逼近的方法，实现与已有算法相当的表现。

Apr, 2023

最小数据学习的辅助任务重新加权

本文提出了一种自动重新调整辅助任务权重的方法，以减少主任务所需的培训数据，并在多个实验设置下证明了算法的有效性，同时避免昂贵的网格搜索。

Oct, 2020

自我预测何时有帮助？理解增强学习中的辅助任务

我们研究了辅助学习任务对强化学习中的表示学习问题的影响，包括观测重建和潜在自预测，并研究它们如何与干扰项和观测函数在 MDP 中交互。

Jun, 2024

辅助任务对表示动态的影响

本文研究了在稀疏奖励环境中，如何通过分析时间差分算法的动态来建立转移算符的谱分解和各种辅助任务诱导的表示之间的联系，并利用这些理论结果来选择深度强化学习代理的辅助任务。

Feb, 2021