强化学习中的局部约束表达
本文研究功能性显著表征的强化学习方法,可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验,表明该方法在表征学习、探索和分层强化学习方面具有优势。
Nov, 2018
本文提出了基于对比学习的强化学习算法,通过学习动作标记的轨迹对比学习来直接获得好的表示,并成功地将其应用于目标条件 RL 任务。在一系列任务中,对比 RL 方法表现更好,且不需要使用数据增强或辅助目标。
Jun, 2022
本文研究了强化学习中的状态表示问题,发现时序差分学习与蒙特卡罗、残差梯度学习在大部分环境的特征学习上存在差异,本文提出的新的辅助学习规则在经典环境下具有较好表现。
Jun, 2023
本文介绍了一种使用弱监督来自动区分语义明确的任务子空间和无意义的 “杂草” 任务空间的方法。研究表明,这种学习到的子空间可实现高效探索,并提供了一种捕捉状态间距离的表示形式。该方法在多种具有挑战性的基于视觉的连续控制问题中实现了显著的性能提升,特别是在环境复杂性增加的情况下。
Apr, 2020
本研究提出了新的辅助任务,通过回报信号,使得学到的表示区分具有不同回报的状态和动作对,从而可以更好地在 Atari 游戏和 DeepMind 控制套件等复杂任务中进行学习,并在与现有的辅助任务相结合时表现更好。
Feb, 2021
本研究提出了一种名为 KSL 的新的表示学习方法,通过自我监督辅助任务,强制执行表示的时间一致性,其中代理程序学习以动作为条件的状态空间表示的经常性预测。KSL 学习到的状态编码器生成低维表示,可以使 RL 任务的优化更具样本效率,并在 PlaNet 基准测试套件中产生最先进的数据效率和渐近性能结果。
Oct, 2021
生成表示在强化学习中得到了稳步流行,由于其在提高样本效率和许多环境中的回报方面的潜力。本文对常见的辅助任务进行了比较,基于数百个使用最先进的离策略强化学习算法训练的代理程序。发现显示,辅助任务的表示学习对于维度和复杂度较高的环境是有利的,并且学习环境动态性胜于预测奖励。我们相信这些洞察将使其他研究人员能够更明智地决定如何利用表示学习解决他们的特定问题。
Oct, 2023
本研究提出了一种单一目标的方法,该方法同时优化隐空间模型和策略以实现高回报并保持自一致性,从而在提高样本效率的同时实现更好的强化学习效果。
Sep, 2022