智能体与陌生人进行接力赛？将强化学习泛化到分布之外的轨迹

Apr, 2023

智能体与陌生人进行接力赛？将强化学习泛化到分布之外的轨迹

Can Agents Run Relay Race with Strangers? Generalization of RL to Out-of-Distribution Trajectories

Li-Cheng Lan, Huan Zhang, Cho-Jui Hsieh

TL;DR本文主要研究重新概括（relay-generalization）强化学习（reinforcement learning，RL）代理人在可控状态下的性能，并提出一种名为自我轨迹增强（Self-Trajectory Augmentation，STA）的新方法，用于提高代理人在这类状态下的泛化性能，实验证明这种方法有效。

Abstract

In this paper, we define, evaluate, and improve the ``relay-generalization'' performance of reinforcement learning (RL) agents on the out-of-distribution ``controllable'' states. Ideally, an RL agent that generally masters a task should reach its goal starting from any controllable sta

reinforcement learning generalization failure controllable states self-trajectory augmentation soft actor critic

发现论文，激发创造

深度强化学习中的泛化度量和特征描述

本篇论文重新审视了深度强化学习中表示学习的概念，并提出了几种定义，并在一个通用的测试任务上使用这些定义评估了算法的性能，结果表明代理在一些未被探索的状态下决策结果较差，这暗示我们需要更多的实验和分析，以支持表示学习的相关权利主张。

Dec, 2018

安全关键的强化学习中基于少量环境的泛化

本文研究深度强化学习中有限的训练环境对安全和泛化性能的影响，通过模型平均和使用阻塞分类器等简单方法，可显著降低在网格世界中的灾难情况，但在 CoinRun 环境中会存在一定失败率，然而可以通过系集的不确定性信息来预测是否需要人类干预。

Jul, 2019

SeRO: 自我监督强化学习用于超出分布情况的恢复

我们提出了一种新颖的方法，通过自我监督地训练，使机器人智能体能够在发生超出分布状态的情况下重新获得自身的状态分布，并大大提高了其从超出分布状态中恢复的能力。

Nov, 2023

离线强化学习中的超出分布泛化扩散策略

利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比，离线强化学习可以使用非专家数据和多模态行为策略。然而，离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战，因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而，它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法，将状态重构特征学习纳入最近的一类扩散策略中，以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习，从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个 D4RL 基准任务上评估了我们模型的性能，实现了最先进的结果。

Jul, 2023

网络随机化：增强学习中通用的简单技术

本文提出一种简单有效的技术，通过引入随机卷积神经网络打乱输入观测数据，在提高深度强化学习智能体的泛化能力方面取得了显著效果，并且通过 Monte Carlo 近似的推理方法来减少随机化引起的方差。我们在 2D CoinRun、3D DeepMind Lab 探索和 3D 机器人控制任务中展示了我们的方法的优越性，相比于其他正则化和数据增强方法明显更加优秀。

Oct, 2019

探索前进：在深度强化学习中利用探索进行泛化

提供一种新的方法 Explore-Go，通过增加代理训练的状态数目，从而有效地增加代理的起始状态分布，以提高强化学习中的泛化性能。

Jun, 2024

泛状态和行为空间上的政策优化

本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习（RL）问题，引入了新的方法将函数逼近与此方法相结合，从而完全不需要使用显式策略参数化。此外，还提出了一种新的政策对偶平均方法，其中可能可以应用更简单的函数逼近技术。在精确策略评估下，我们将这些方法应用于解决不同类别的 RL 问题，为这些方法的全局最优性或局部最优性建立线性收敛速度，探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知，这些算法框架的开发以及它们的收敛分析似乎是文献中新的。

Nov, 2022

探究连续深度强化学习中的泛化能力

本文通过深度增强学习模型下的不确定性源和基准测试来研究面临的泛化挑战，并评估了改进泛化性能的几种技术，总结了迄今为止最稳健的技术。

Feb, 2019

通过反事实轨迹解释强化学习策略

通过展示强化学习代理在更广泛的轨迹分布中的行为，我们的方法可以传达代理在分布转移下的表现，从而有助于代理的有效验证。在用户研究中，我们展示了我们的方法可以使用户在代理验证任务中的得分比基准方法高。

Jan, 2022

不良习惯：强化学习中的政策混淆和轨迹外泛化

在本文中，我们提供了对强化学习代理人的策略混淆现象的数学描述，并通过一系列示例展示了它何时发生以及如何发生。

Jun, 2023