你只能活一次：单生强化学习

Oct, 2022

You Only Live Once: Single-Life Reinforcement Learning

Annie S. Chen, Archit Sharma, Sergey Levine, Chelsea Finn

TL;DR该研究提出了一种称为单次生命强化学习（SLRL）的新问题设置，探讨了在未知状态下如何适应的挑战，并使用 Q-weighted adversarial learning （QWALE）算法来应对这一挑战，该算法通过先前的经验来指导在新情况下的决策，实验结果表明优于现有方法 20-60%。

Abstract

reinforcement learning algorithms are typically designed to learn a performant policy that can repeatedly and autonomously complete a task, usually starting from scratch. However, in many real-world situations, the goal might not be to learn a policy that can do the task repeatedly, bu

reinforcement learning single-life reinforcement learning q-weighted adversarial learning prior experience novel situations

发现论文，激发创造

单轨迹鲁棒分布式强化学习

提出了分布式鲁棒 Q 学习及其平均奖励变体，且在单轨迹训练的基础上，给出了渐近收敛保证和实验验证，证明其在扰动环境下的优越性。

Jan, 2023

增强机器人操作：在元世界中利用多任务强化学习和单生命强化学习的力量

该研究旨在用多任务软演员 - 评论家算法（MT-SAC）培训机械臂，以使其能够在 Meta World 环境中成功执行七项不同任务。接下来，训练模型将作为单一生命强化学习算法的先前数据，并通过在各种目标位置（新颖位置）进行测试来评估 MT-QWALE 算法的效果。最后，通过比较经过训练的 MT-SAC 和 MT-QWALE 算法，发现 MT-QWALE 的表现更好。消融研究表明即使隐藏了最终目标位置，MT-QWALE 也能够成功地完成任务，并且所需的步骤略多。

Oct, 2023

可控行为的弱监督强化学习

本文介绍了一种使用弱监督来自动区分语义明确的任务子空间和无意义的 “杂草” 任务空间的方法。研究表明，这种学习到的子空间可实现高效探索，并提供了一种捕捉状态间距离的表示形式。该方法在多种具有挑战性的基于视觉的连续控制问题中实现了显著的性能提升，特别是在环境复杂性增加的情况下。

Apr, 2020

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

一种非情节式强化学习的状态分布匹配方法

提出一种名为 MEDAL 的新方法，它将反向策略训练成与提供的演示中的状态分布匹配，以使代理保持接近与任务相关的状态，从而为前向策略提供易于和困难的起始状态，而且在连续控制任务上匹配或优于先前的方法，同时做出比以前更少的假设。

May, 2022

单任务持续离线强化学习

本研究提出了一种新的算法，名为基于经验回放的集成离线强化学习，通过引入多个值网络来学习相同的数据集，并通过值网络的离散程度判断策略是否已经学习，以提高单任务离线强化学习网络的性能。

Apr, 2024

离线强化学习中从单个任务中发现多个解决方案

通过研究在线强化学习，在少样本适应新环境的情况下，从一个任务中学习多种行为的优势已经被证明。然而，在离线强化学习中，学习多个解决方案的适当方法并未在先前研究中得到充分探讨。本研究因此解决了在离线强化学习中从单个任务中找到多个解决方案的问题。我们提出了一些可以在离线强化学习中学习多个解决方案的算法，并通过实证研究了它们的性能。实验结果表明，所提出的算法在离线强化学习中学习到了多个在质量和数量上都有显著差异的解决方案。

Jun, 2024

SQIL: 通过稀疏奖励加强学习实现的模仿学习

提出了一种称作 “软 Q 模仿学习” 的新方法，该方法使用强化学习，但不需要学习奖励函数，而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习（GAIL）的方法，可用于标准 Q 学习或离线策略演员 - 评论家算法。

May, 2019

S4RL：离线强化学习的惊人简单自监督

本文旨在通过对状态空间进行数据扩充来提高线下强化学习算法的泛化性能，并结合最先进的 Q-learning 技术，通过平滑学习到的状态 - 动作空间，实现在 MetaWorld 和 RoboSuite 等机器人学习环境以及 D4RL 数据集上显著的提升。

Mar, 2021

强化学习中的一次性回馈理论

我们研究了一种强化学习的理论，学习者只在每次学习完成后收到一次二元反馈。我们提供了一种具有统计和计算效率的算法，可以在这种更具挑战性的情况下实现学习。该算法可以在未知参数模型生成的轨迹标签上运行，并达到亚线性遗憾。

May, 2021