本文提出一种基于视觉的控制新的挑战性基准,用于分析在多种视觉干扰和复杂性环境下的强化学习算法,结果表明当前视觉控制强化学习方法在复杂性视觉干扰下表现不佳,需要新的方法来应对现实世界的视觉复杂性。
Jan, 2021
本文研究功能性显著表征的强化学习方法,可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验,表明该方法在表征学习、探索和分层强化学习方面具有优势。
Nov, 2018
本文介绍了一种使用无监督技术和自监督学习的状态表征方法,可以帮助强化学习智能体快速学习到基本导航技能。在使用像素地图进行评估时,我们发现像素表示和条件政策学习适用于玩具例子,但不适用于逼真和复杂的地图。因此我们还研究了相对位移等替代观测输入。
Jul, 2021
本文在三个机器人任务中系统评估了多种常见的学习和手工工程化表示方法,并从三个方面对每种表现方法进行评估,即维度,可观测性和分离度,发现在输入代理或作为辅助任务的情况下,可以显著提高性能,并挑战了什么是控制机器人 ' 好' 表示的见解。
Nov, 2020
本文提出了一种数据有效、基于模型的强化学习算法,通过使用像素信息直接学习闭环控制策略,实现了从像素到扭矩的端到端学习。该方法具有快速学习、高维状态空间可扩展、轻量级等优点,并且是解决在连续状态和动作下进行数据有效强化学习问题的重要步骤。
Oct, 2015
研究如何利用表示学习加速深度强化学习,学习能够为任务控制提供有效的潜在表示并具有与任务无关的不变性的表示方法,使用双模拟量度量在连续 MDP 状态之间的行为相似度,学习出能够仅编码来自观测的任务相关信息的健壮潜在表示,该方法通过训练编码器使潜在空间的距离等于状态空间中的双模拟距离,并在修改版的可视化 MuJoCo 任务中证明了其成功地去除任务无关信息且达到了先进技术的表现,测试了第一人称高速公路驾驶任务,其中方法学习了对云、天气和时间的不变性,最后提供了从双模拟度量的属性推导的泛化结果和与因果推断的联系。
Jun, 2020
本文提出了一种基于对象的方法,试图从对象中发现有意义的特征,将其转化为具有时间相关性的 “指导” 函数,并利用随后学习到的一般价值函数进行控制,并且通过定性分析表明,学习到的表示不仅可解释而且围绕着任务之间不变的对象,从而促进了快速适应。
Apr, 2023
研究表明,预训练的视觉表示方法对于控制任务的学习同样有效,甚至在某些情况下可以优于基于真实状态的表示方法,而这些预训练模型仅需要使用标准视觉数据集,而不需要在目标环境中使用真实数据。
Mar, 2022
本研究探讨了完全自我监督的学习方法,基于状态达成最短时间来实现通用图像嵌入和控制基元,同时介绍了一种新的状态操作价值函数结构,建立了模型自由和模型基础方法之间的联系,并提高了学习算法的性能。三项模拟机器人任务的实验结果表明了这些发现。
Jan, 2019
该研究提出了一项简单的数据增强技术,可以应用于标准的无模型强化学习算法,从像素直接学习,无需辅助损失或预训练,并使用图像处理来规范化值函数,实现与 DeepMind 控制套件相关的现有模型的最高表现。
Apr, 2020