通过生成和测试发现辅助任务
本研究研究探讨在强化学习中,作为表示学习的辅助任务(auxiliary tasks)的目标策略(target policy)对主任务(main task)学习的影响,实证结果表明,贪心策略的辅助任务往往有效,而在所有策略中,甚至包括均匀随机策略,通常都比基线更有效。与其他策略相比,主任务策略往往不太有效。
Apr, 2022
生成表示在强化学习中得到了稳步流行,由于其在提高样本效率和许多环境中的回报方面的潜力。本文对常见的辅助任务进行了比较,基于数百个使用最先进的离策略强化学习算法训练的代理程序。发现显示,辅助任务的表示学习对于维度和复杂度较高的环境是有利的,并且学习环境动态性胜于预测奖励。我们相信这些洞察将使其他研究人员能够更明智地决定如何利用表示学习解决他们的特定问题。
Oct, 2023
通过生成和学习有用的辅助任务,最大化经验重用,从而学习解决给定任务的方法,通过计数推理和离线策略方法同时学习这些辅助任务,从而实现多任务强化学习的新框架。
Mar, 2023
这篇文章提出了一种基于元梯度的全局价值函数(GVFs)发现方法,从而让强化学习(RL)代理能够发现自身的问题并通过学习答案来获得未预期的有用知识和技能,在 Atari 2600 电子游戏中,这些辅助任务通过与主任务一起元学习的方式可以提高一个演员 - 评论家代理的数据效率。
Sep, 2019
本文提出了一种基于隐式微分的新框架 AuxiLearn,针对多任务学习中设计有用的辅助任务和将辅助任务组合成一个连贯的损失函数的挑战,当已知有用的辅助任务时,可以学习一个网络将所有损失合并成一个连贯的目标函数,并且能够学习任务之间的非线性交互;当不知道有用的辅助任务时,可以学习一个生成有意义的新辅助任务的网络。在图像分割和低数据情况下学习属性等多个任务和领域中,AuxiLearn 均表现出比竞争方法更为出色的性能。
Jun, 2020
本研究通过增加辅助任务来提高深度强化学习代理学习到的表征,特别是通过基于后继度量的辅助任务建立的对象 proto-value networks 学习代理的丰富表征,实验结果表明 proto-value networks 可以在仅进行少量与环境奖励交互的情况下,使用线性逼近的方法,实现与已有算法相当的表现。
Apr, 2023
本文研究了在稀疏奖励环境中,如何通过分析时间差分算法的动态来建立转移算符的谱分解和各种辅助任务诱导的表示之间的联系,并利用这些理论结果来选择深度强化学习代理的辅助任务。
Feb, 2021