通过功能奖励编码的无监督零样本强化学习
通过使用函数编码器来表示奖励函数或转换函数,学习代理机器人在运行时如何与先前的任务相关联的方法,并通过在强化学习算法中引入功能编码器任务表示来展示最先进的数据效率、渐近性能和训练稳定性。
Jan, 2024
通过学习结构化表示并利用方向性移动跨越学习的潜在空间,我们提出了一种新的无监督框架,用于从无标签的离线数据中预训练能够捕捉多样化、最优且长程行为的通用策略,并可以在零样本方式下快速适应任意新任务。在模拟机器人的运动和操作基准测试中的实验证明,我们的无监督策略可以以零样本的方式解决目标有条件的和通用 RL 任务,甚至经常优于针对每个场景专门设计的先前方法。
Feb, 2024
该论文介绍了一种深度强化学习代理,它不仅能够直接最大化累积奖励,在共同的表现下还能同时最大化许多其他伪奖励函数,该代理基于不受外部奖励影响的无监督学习得到共同的表现,并对外部奖励进行关注,可以快速适应实际任务,在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。
Nov, 2016
本研究提出了一种名为 Cross-Trajectory Representation Learning(CTRL)的方法来训练一个无需奖励信号的编码器,使其将行为相似的观察结果映射到相似的表示空间中,以实现 RL 中的零 - shot 泛化,实验表明 CTRL 与 PPO 相结合可以更好地应对 Procgen 基准测试套件中的挑战。
Jun, 2021
通过引入辅助损失以及消除后效性的影响,提出了一种简单且有效的方法,可以在 MuJoCo 控制任务上匹配最新的无模型和有模型算法,同时在观测噪声下表现出鲁棒性,并且过来了以往使用变分自动编码器所面临的发散问题。
Oct, 2019
利用未标记数据预先训练编码器,然后在少量任务特定数据上微调,通过使用潜在动态建模和无监督的目标条件强化学习来促进学习代表捕捉底层 MDP 的多个方面,该方法显示出极高的数据效率并且提供与先前工作以及需要订单更多数据的其他预训练方法相比的最先进的性能
Jun, 2021
通过探索和学习在环境中掌握多个任务是强化学习中一个重要的挑战。本文介绍了一种无需奖励的强化学习算法,其中的关键思想是通过不确定性感知的内在奖励来探索环境,并通过不同样本的不确定性加权学习处理异质性不确定性,通过在 DeepMind Control Suite 的各个领域和任务上的实验结果表明,该算法优于或与现有的无监督强化学习算法的性能相当。
Jun, 2024
本文介绍了一种通过生成式预训练学习得到的视觉表示,用于有效地加速并提高多种任务下视觉增强学习系统性能和效率的框架。我们在视频数据上预训练了一个无动作潜在视频预测模型,并将这些表示用于未知环境下的学习操作条件下的世界模型。我们还引入了一个新的架构,该架构在预训练的无动作预测模型的基础上堆叠了一个动作条件潜在预测模型,以更好地实现探索。同时也提出了基于视频的内在激励奖励机制,利用预训练表示的优势,有效提升了数据利用率和最终权能的完成度。
Mar, 2022
在不需要奖励函数的情况下,在批量强化学习和多个奖励函数的领域中,代理人可以收集数据,然后使用线性马尔科夫决策过程设置中的线性转移和奖励来实现奖励免费强化学习,并得出一个算法的样本复杂度是多项式时间,与状态和动作的数量无关。
Jun, 2020