生成表示在强化学习中得到了稳步流行,由于其在提高样本效率和许多环境中的回报方面的潜力。本文对常见的辅助任务进行了比较,基于数百个使用最先进的离策略强化学习算法训练的代理程序。发现显示,辅助任务的表示学习对于维度和复杂度较高的环境是有利的,并且学习环境动态性胜于预测奖励。我们相信这些洞察将使其他研究人员能够更明智地决定如何利用表示学习解决他们的特定问题。
Oct, 2023
本文介绍了一种基于表示学习思想的强化学习辅助任务发现方法,通过不断生成新的辅助任务并保留具有较高效用性的任务来提高数据效率,并引入了一种反映辅助任务效用的衡量标准。实现的算法在多种环境下显著优于随机任务和手动设计的任务。
Oct, 2022
我们研究了辅助学习任务对强化学习中的表示学习问题的影响,包括观测重建和潜在自预测,并研究它们如何与干扰项和观测函数在 MDP 中交互。
Jun, 2024
本文研究了强化学习中的状态表示问题,发现时序差分学习与蒙特卡罗、残差梯度学习在大部分环境的特征学习上存在差异,本文提出的新的辅助学习规则在经典环境下具有较好表现。
Jun, 2023
本研究通过增加辅助任务来提高深度强化学习代理学习到的表征,特别是通过基于后继度量的辅助任务建立的对象 proto-value networks 学习代理的丰富表征,实验结果表明 proto-value networks 可以在仅进行少量与环境奖励交互的情况下,使用线性逼近的方法,实现与已有算法相当的表现。
Apr, 2023
本研究研究探讨在强化学习中,作为表示学习的辅助任务(auxiliary tasks)的目标策略(target policy)对主任务(main task)学习的影响,实证结果表明,贪心策略的辅助任务往往有效,而在所有策略中,甚至包括均匀随机策略,通常都比基线更有效。与其他策略相比,主任务策略往往不太有效。
Apr, 2022
通过生成和学习有用的辅助任务,最大化经验重用,从而学习解决给定任务的方法,通过计数推理和离线策略方法同时学习这些辅助任务,从而实现多任务强化学习的新框架。
Mar, 2023
为使辅助任务更新适应主任务,我们提出了一种模型无关的框架,通过对辅助更新进行分解和加权,使得这些更新可以帮助、损害或保持主任务损失不变,在处理文本和图像分类任务中,该方法与强基线方法相比表现更优。
Aug, 2021
研究了整合深度强化学习算法中的集成和辅助任务的影响,并在 ATARI 游戏中进行了案例研究,在有限的数据约束下,从不同的方法来分析学习集合和使用辅助任务的各种方式,并使用分析结果来提供对案例研究的理解。
Jul, 2021
通过度量状态之间的转换距离,我们提出了一种新颖的表示学习方法,用于自动生成辅助奖励,以促进增强学习的效率和收敛稳定性。
Feb, 2024