通过函数编码器实现零样本强化学习

Jan, 2024

通过函数编码器实现零样本强化学习

Zero-Shot Reinforcement Learning via Function Encoders

Tyler Ingebrand, Amy Zhang, Ufuk Topcu

TL;DR通过使用函数编码器来表示奖励函数或转换函数，学习代理机器人在运行时如何与先前的任务相关联的方法，并通过在强化学习算法中引入功能编码器任务表示来展示最先进的数据效率、渐近性能和训练稳定性。

Abstract

Although reinforcement learning (RL) can solve many challenging sequential decision making problems, achieving zero-shot transfer across related tasks remains a challenge. The difficulty lies in finding a good re

reinforcement learning transfer learning representation learning zero-shot transfer function encoder

发现论文，激发创造

通过功能奖励编码的无监督零样本强化学习

我们提出了一种功能奖励编码（FRE）作为零样本强化学习问题的一种通用、可扩展的解决方案，通过使用基于变分自编码器的变压器，学习任意任务的功能表示，从而在大量无标签离线轨迹上预先训练一般性代理，以零样本方式适应任何新的下游任务。

Feb, 2024

基于交叉轨迹表示学习的零样本泛化强化学习

本研究提出了一种名为 Cross-Trajectory Representation Learning（CTRL）的方法来训练一个无需奖励信号的编码器，使其将行为相似的观察结果映射到相似的表示空间中，以实现 RL 中的零 - shot 泛化，实验表明 CTRL 与 PPO 相结合可以更好地应对 Procgen 基准测试套件中的挑战。

Jun, 2021

像素到策略：用于跨游戏和游戏内强化学习的 DQN 编码器

强化学习应用于各种任务和环境中，通过学习可在不同任务和环境间转移的策略，能够提升学习效率和性能，并在多个游戏环境中实现了显著的结果。

Aug, 2023

利用目标条件策略学习可操作表示

本文研究功能性显著表征的强化学习方法，可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验，表明该方法在表征学习、探索和分层强化学习方面具有优势。

Nov, 2018

提高基于图像的模型自由强化学习的样本效率

通过引入辅助损失以及消除后效性的影响，提出了一种简单且有效的方法，可以在 MuJoCo 控制任务上匹配最新的无模型和有模型算法，同时在观测噪声下表现出鲁棒性，并且过来了以往使用变分自动编码器所面临的发散问题。

Oct, 2019

零样本迁移在模仿学习中的应用

我们提出了一种学习模仿专家行为并能在以前未见过的领域进行迁移学习的算法。通过使用 AnnealedVAE 来学习一个解缠缚状态表示，并通过学习一个单一的 Q 函数来模仿专家，我们结合了深度强化学习中的最新进展，从而克服了奖励函数设计的困难、在不同领域部署已学习策略的困难，以及直接在现实世界中学习由于安全问题而昂贵或不可行的问题。在 3 个环境中展示了我们方法的有效性，这些环境的难度和迁移知识类型各不相同。

Oct, 2023

使用随机特征的自监督强化学习转移

通过在模型自由学习算法中引入自我监督学习的方法，使其能够实现任务转移；该方法是有监督的，可以在没有奖励标签的情况下进行训练，并且可以快速地部署到新任务中。

May, 2023

使用线性函数逼近进行无奖励强化学习

在不需要奖励函数的情况下，在批量强化学习和多个奖励函数的领域中，代理人可以收集数据，然后使用线性马尔科夫决策过程设置中的线性转移和奖励来实现奖励免费强化学习，并得出一个算法的样本复杂度是多项式时间，与状态和动作的数量无关。

Jun, 2020

可转移元表示的对比学习

本文研究了联合学习对元表示可转移性的影响，并提出了一种分离的编码器 - 解码器方法来实现自监督的元学习，如从相同的函数中获取两个示例集。我们的实验表明，得到的表示比强基线在下游性能和噪声鲁棒性方面都要好。

Oct, 2020

高效表示技术用于终身学习和自编码

本论文提出并提供了多种自然理论公式的有效算法，以解决在学习多个不同目标函数时，学习者可共享某些未知公共特征的问题，并且可以学习到捕捉这种共性的新的内部表示，以便更高效地学习和使用更少的数据。

Nov, 2014