本篇论文重新审视了深度强化学习中表示学习的概念,并提出了几种定义,并在一个通用的测试任务上使用这些定义评估了算法的性能,结果表明代理在一些未被探索的状态下决策结果较差,这暗示我们需要更多的实验和分析,以支持表示学习的相关权利主张。
Dec, 2018
本文提出一种局部约束表示法,通过对环境观测状态的预测及邻近状态的表示作为辅助损失,将强化学习中的表示与任务相分离,可以提高泛化能力,有效应用于连续控制任务中。
Sep, 2022
通过先前的经验来学习有效的隐藏表示,以指示探索的区域,这对高维空间中的探索尤其有益。
May, 2019
研究了在没有给定先验结构的情况下,如何基于状态表示和行为表示实现模型无关的强化学习方法,并提供了相应的算法和收敛条件。
Feb, 2019
本研究针对建立连续学习中的状态表示模型问题展开讨论,为保留过去知识的同时高效压缩感知状态信息,我们提出了使用变分自编码器(Variational Auto-Encoders)作为状态表示,并基于生成样本的生成回放(Generative Replay)技术来保持过去知识。我们还提供了一种统计意义上合理的自动环境变化检测方法。该方法不仅可提供高效的状态表示和前向传递,还可避免灾难性遗忘。最后得出的模型能够在有限系统空间内逐增学习,无需使用过去数据。
Oct, 2018
本文研究功能性显著表征的强化学习方法,可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验,表明该方法在表征学习、探索和分层强化学习方面具有优势。
Nov, 2018
选择适当的环境表示对于强化学习代理的决策过程并不总是直观的,本研究考察了不同状态表示对于激励代理解决机器人任务的影响,结果显示使用数字状态的强化学习代理与非学习基线表现相当,而使用经过预训练环境嵌入向量的图像表示的代理表现更好,推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。
Sep, 2023
本文研究强化学习中函数逼近不稳定的问题,提出了一种基于状态表示学习的解决方案,分析 transition matrix、proto-value functions、krylov subspace 等方案的适用范围与稳定性,并通过实验验证了可以使用随机梯度下降学习这种可靠的状态表示,从而提高深度网络对强化学习的表示学习技巧。
Jul, 2020
本文在三个机器人任务中系统评估了多种常见的学习和手工工程化表示方法,并从三个方面对每种表现方法进行评估,即维度,可观测性和分离度,发现在输入代理或作为辅助任务的情况下,可以显著提高性能,并挑战了什么是控制机器人 ' 好' 表示的见解。
Nov, 2020
从统计学角度出发,本文展示了关于样本高效强化学习的充分条件其实比从传统的近似观点得出的条件更加苛刻。本文的主要研究结果为强化学习方法提供了尖锐的下限,揭示了好的(基于值、基于模型或基于策略)表示本身并不足以实现高效强化学习,除非这种近似的质量通过某些硬性门槛。此外,本研究还暗示了以下因素之间的样本复杂度呈指数倍增长:1)基于值的学习与任何质量的基于值的近似学习;2)基于值的学习与基于策略的学习;3)基于策略的学习和监督学习;4)强化学习和模仿学习。
Oct, 2019