我们提出了一种功能奖励编码(FRE)作为零样本强化学习问题的一种通用、可扩展的解决方案,通过使用基于变分自编码器的变压器,学习任意任务的功能表示,从而在大量无标签离线轨迹上预先训练一般性代理,以零样本方式适应任何新的下游任务。
Feb, 2024
本研究提出了一种名为 Cross-Trajectory Representation Learning(CTRL)的方法来训练一个无需奖励信号的编码器,使其将行为相似的观察结果映射到相似的表示空间中,以实现 RL 中的零 - shot 泛化,实验表明 CTRL 与 PPO 相结合可以更好地应对 Procgen 基准测试套件中的挑战。
Jun, 2021
强化学习应用于各种任务和环境中,通过学习可在不同任务和环境间转移的策略,能够提升学习效率和性能,并在多个游戏环境中实现了显著的结果。
Aug, 2023
本文研究功能性显著表征的强化学习方法,可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验,表明该方法在表征学习、探索和分层强化学习方面具有优势。
Nov, 2018
通过引入辅助损失以及消除后效性的影响,提出了一种简单且有效的方法,可以在 MuJoCo 控制任务上匹配最新的无模型和有模型算法,同时在观测噪声下表现出鲁棒性,并且过来了以往使用变分自动编码器所面临的发散问题。
Oct, 2019
我们提出了一种学习模仿专家行为并能在以前未见过的领域进行迁移学习的算法。通过使用 AnnealedVAE 来学习一个解缠缚状态表示,并通过学习一个单一的 Q 函数来模仿专家,我们结合了深度强化学习中的最新进展,从而克服了奖励函数设计的困难、在不同领域部署已学习策略的困难,以及直接在现实世界中学习由于安全问题而昂贵或不可行的问题。在 3 个环境中展示了我们方法的有效性,这些环境的难度和迁移知识类型各不相同。
Oct, 2023
通过在模型自由学习算法中引入自我监督学习的方法,使其能够实现任务转移;该方法是有监督的,可以在没有奖励标签的情况下进行训练,并且可以快速地部署到新任务中。
May, 2023
在不需要奖励函数的情况下,在批量强化学习和多个奖励函数的领域中,代理人可以收集数据,然后使用线性马尔科夫决策过程设置中的线性转移和奖励来实现奖励免费强化学习,并得出一个算法的样本复杂度是多项式时间,与状态和动作的数量无关。
Jun, 2020
本文研究了联合学习对元表示可转移性的影响,并提出了一种分离的编码器 - 解码器方法来实现自监督的元学习,如从相同的函数中获取两个示例集。我们的实验表明,得到的表示比强基线在下游性能和噪声鲁棒性方面都要好。
Oct, 2020
本论文提出并提供了多种自然理论公式的有效算法,以解决在学习多个不同目标函数时,学习者可共享某些未知公共特征的问题,并且可以学习到捕捉这种共性的新的内部表示,以便更高效地学习和使用更少的数据。
Nov, 2014