生成表示在强化学习中得到了稳步流行,由于其在提高样本效率和许多环境中的回报方面的潜力。本文对常见的辅助任务进行了比较,基于数百个使用最先进的离策略强化学习算法训练的代理程序。发现显示,辅助任务的表示学习对于维度和复杂度较高的环境是有利的,并且学习环境动态性胜于预测奖励。我们相信这些洞察将使其他研究人员能够更明智地决定如何利用表示学习解决他们的特定问题。
Oct, 2023
本研究提出了新的辅助任务,通过回报信号,使得学到的表示区分具有不同回报的状态和动作对,从而可以更好地在 Atari 游戏和 DeepMind 控制套件等复杂任务中进行学习,并在与现有的辅助任务相结合时表现更好。
Feb, 2021
本文研究强化学习中函数逼近不稳定的问题,提出了一种基于状态表示学习的解决方案,分析 transition matrix、proto-value functions、krylov subspace 等方案的适用范围与稳定性,并通过实验验证了可以使用随机梯度下降学习这种可靠的状态表示,从而提高深度网络对强化学习的表示学习技巧。
Jul, 2020
本文提出一种局部约束表示法,通过对环境观测状态的预测及邻近状态的表示作为辅助损失,将强化学习中的表示与任务相分离,可以提高泛化能力,有效应用于连续控制任务中。
Sep, 2022
本文探讨强化学习算法中的 TD Learning 和基础节疤核在强化学习中的作用,使用计算机模拟来验证利用稀疏的联合表示来学习在特定环境下获得预期奖励的好处。
Sep, 2019
通过引入时间分离(TED)作为强化学习辅助任务,可以更好地利用序列化 RL 观察结果,学习更健壮的表示形式,从而使 RL 算法对未知环境变量的变化更快地适应。
Jul, 2022
选择适当的环境表示对于强化学习代理的决策过程并不总是直观的,本研究考察了不同状态表示对于激励代理解决机器人任务的影响,结果显示使用数字状态的强化学习代理与非学习基线表现相当,而使用经过预训练环境嵌入向量的图像表示的代理表现更好,推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。
Sep, 2023
深度强化学习的关键是表示方法,这篇论文揭示了多种表示学习方法和理论框架之间的共同性,特别是基于自预测抽象的思想,并给出了学习自预测表示方法的最简算法和实用指南。
Jan, 2024
本研究提出了一种名为 KSL 的新的表示学习方法,通过自我监督辅助任务,强制执行表示的时间一致性,其中代理程序学习以动作为条件的状态空间表示的经常性预测。KSL 学习到的状态编码器生成低维表示,可以使 RL 任务的优化更具样本效率,并在 PlaNet 基准测试套件中产生最先进的数据效率和渐近性能结果。
Oct, 2021
本研究探讨了强化学习中状态表示的泛化行为及具体的有效维度边界,并通过文献调研及案例分析验证了所提出的有效维度理论。
Mar, 2022