辅助任务对表示动态的影响

Feb, 2021

On The Effect of Auxiliary Tasks on Representation Dynamics

Clare Lyle, Mark Rowland, Georg Ostrovski, Will Dabney

TL;DR本文研究了在稀疏奖励环境中，如何通过分析时间差分算法的动态来建立转移算符的谱分解和各种辅助任务诱导的表示之间的联系，并利用这些理论结果来选择深度强化学习代理的辅助任务。

Abstract

While auxiliary tasks play a key role in shaping the representations learnt by reinforcement learning agents, much is still unknown about the mechanisms through which this is achieved. This work develops our unde

reinforcement learning auxiliary tasks environment structure spectral decomposition sparse-reward environments

发现论文，激发创造

比较强化学习表征学习的辅助任务

生成表示在强化学习中得到了稳步流行，由于其在提高样本效率和许多环境中的回报方面的潜力。本文对常见的辅助任务进行了比较，基于数百个使用最先进的离策略强化学习算法训练的代理程序。发现显示，辅助任务的表示学习对于维度和复杂度较高的环境是有利的，并且学习环境动态性胜于预测奖励。我们相信这些洞察将使其他研究人员能够更明智地决定如何利用表示学习解决他们的特定问题。

Oct, 2023

通过生成和测试发现辅助任务

本文介绍了一种基于表示学习思想的强化学习辅助任务发现方法，通过不断生成新的辅助任务并保留具有较高效用性的任务来提高数据效率，并引入了一种反映辅助任务效用的衡量标准。实现的算法在多种环境下显著优于随机任务和手动设计的任务。

Oct, 2022

自我预测何时有帮助？理解增强学习中的辅助任务

我们研究了辅助学习任务对强化学习中的表示学习问题的影响，包括观测重建和潜在自预测，并研究它们如何与干扰项和观测函数在 MDP 中交互。

Jun, 2024

增强学习中的引导式表示学习

本文研究了强化学习中的状态表示问题，发现时序差分学习与蒙特卡罗、残差梯度学习在大部分环境的特征学习上存在差异，本文提出的新的辅助学习规则在经典环境下具有较好表现。

Jun, 2023

Proto-Value Networks: 辅助任务扩展表示学习的规模

本研究通过增加辅助任务来提高深度强化学习代理学习到的表征，特别是通过基于后继度量的辅助任务建立的对象 proto-value networks 学习代理的丰富表征，实验结果表明 proto-value networks 可以在仅进行少量与环境奖励交互的情况下，使用线性逼近的方法，实现与已有算法相当的表现。

Apr, 2023

强化学习中有用的辅助任务是什么：研究目标策略的影响

本研究研究探讨在强化学习中，作为表示学习的辅助任务（auxiliary tasks）的目标策略（target policy）对主任务（main task）学习的影响，实证结果表明，贪心策略的辅助任务往往有效，而在所有策略中，甚至包括均匀随机策略，通常都比基线更有效。与其他策略相比，主任务策略往往不太有效。

Apr, 2022

利用上下文结构生成有用的辅助任务

通过生成和学习有用的辅助任务，最大化经验重用，从而学习解决给定任务的方法，通过计数推理和离线策略方法同时学习这些辅助任务，从而实现多任务强化学习的新框架。

Mar, 2023

辅助任务更新分解：好的、坏的和中性的

为使辅助任务更新适应主任务，我们提出了一种模型无关的框架，通过对辅助更新进行分解和加权，使得这些更新可以帮助、损害或保持主任务损失不变，在处理文本和图像分类任务中，该方法与强基线方法相比表现更优。

Aug, 2021

数据效率深度强化学习的集成和辅助任务

研究了整合深度强化学习算法中的集成和辅助任务的影响，并在 ATARI 游戏中进行了案例研究，在有限的数据约束下，从不同的方法来分析学习集合和使用辅助任务的各种方式，并使用分析结果来提供对案例研究的理解。

Jul, 2021

辅助奖励生成与过渡距离表示学习

通过度量状态之间的转换距离，我们提出了一种新颖的表示学习方法，用于自动生成辅助奖励，以促进增强学习的效率和收敛稳定性。

Feb, 2024