深度强化学习中的预测辅助目标模拟大脑学习
在部分可观察环境中,学习历史表征是强化学习的核心挑战之一。本文通过未来预测的方式探究了历史表征学习的有效性,并证明了强化学习的性能与未来观察的预测准确性密切相关。同时,该方法可以阻止高方差嘈杂信号对表征学习的影响,显著改善整体端到端方法。通过在需要处理长时间历史的三类基准测试中验证了我们的观点。
Feb, 2024
本研究提出了一种单一目标的方法,该方法同时优化隐空间模型和策略以实现高回报并保持自一致性,从而在提高样本效率的同时实现更好的强化学习效果。
Sep, 2022
生成表示在强化学习中得到了稳步流行,由于其在提高样本效率和许多环境中的回报方面的潜力。本文对常见的辅助任务进行了比较,基于数百个使用最先进的离策略强化学习算法训练的代理程序。发现显示,辅助任务的表示学习对于维度和复杂度较高的环境是有利的,并且学习环境动态性胜于预测奖励。我们相信这些洞察将使其他研究人员能够更明智地决定如何利用表示学习解决他们的特定问题。
Oct, 2023
本文提出了自回归表示 (Self-Predictive Representations, SPR) 方法,使用深度强化学习方法,并结合自监督目标和对视觉输入和与环境的交互结构的预测,提高了代理器的学习效率,并在 Atari 游戏中显著提高了性能。
Jul, 2020
深度强化学习的关键是表示方法,这篇论文揭示了多种表示学习方法和理论框架之间的共同性,特别是基于自预测抽象的思想,并给出了学习自预测表示方法的最简算法和实用指南。
Jan, 2024
人类的大脑通过预测性处理的方式,以较小的资源实现了有效的控制策略,该研究利用预测性处理理论,建立了一个可以预测自身感观状态的循环神经网络模型在强化学习中的应用,并证明该模型在多个游戏中的表现,优于同等时间内的其他同类模型以及人类玩家。
Nov, 2022
本文介绍了一种基于 Deep InfoMax (DIM) 的训练方法,目的是让模型预测未来状态,从而提高处理强化学习问题的性能。测试表明,这种方法在多个人工场景中学到了预测未来状态的表示,并应用于 C51 模型中,在连续学习任务和 Procgen 环境中实现了性能提升。
Jun, 2020