在归一化流的潜空间中训练保守智能体的离线强化学习流程

Nov, 2022

在归一化流的潜空间中训练保守智能体的离线强化学习流程

Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows

Dmitriy Akimov, Vladislav Kurenkov, Alexander Nikulin, Denis Tarasov, Sergey Kolesnikov

TL;DR该研究的目标是通过使用 Normalizing Flows 进行深度学习，利用先前记录的数据集来训练一个采取更保守行动的策略模型，以解决离线增强学习中的外推误差和分布偏移等挑战。我们的方法在各种运动和导航任务中进行了评估，并证明了与最近提出的基于生成动作模型的算法相比在大部分数据集上的优越性。

Abstract

offline reinforcement learning aims to train a policy on a pre-recorded and fixed dataset without any additional environment interactions. There are two major challenges in this setting: (1) extrapolation error caused by approximating the value of state-action pairs not well-covered by

offline reinforcement learning conservatism normalizing flows latent action spaces generative model

发现论文，激发创造

离线强化学习中的潜在扩散推理

该论文介绍了一种离线强化学习的方法，使用压缩的潜在技能建模支援轨迹序列，避免外推错误，并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息，改进了信用分配，并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能，特别擅长长期，稀疏奖励任务。

Sep, 2023

流量控制：无损原始发现的离线强化学习

本研究提出了一种以基本技能表示为流的离线层次学习方法，重点在于保证基本技能的表达能力，从而恢复整个策略空间，实验结果表明，该方法在大多数任务中取得了优异的性能表现。

Dec, 2022

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

PLAS：离线强化学习的潜在动作空间

该论文提出了一种使用潜在动作空间学习策略的离线强化学习方法，能够有效克服现有算法存在的内插误差，具有优异的性能表现。

Nov, 2020

采用潜空间模型的基于图像的离线强化学习

该研究提出了一种基于模型的离线 RL 算法，该算法可扩展应用于高维视觉观测空间，通过学习潜在状态动力学模型并在潜在空间中表示不确定性来克服图像观测的挑战，并在多项具有挑战性的基于图像的移动和操纵任务中取得了优异的表现。

Dec, 2020

将基于模型策略的稳态分布规范化以稳定离线强化学习

该研究针对离线强化学习中策略训练不稳定的问题，通过对当前策略的无折扣平稳分布进行正则化，并训练动力学模型以实现该正则化和更好地估计当前策略的平稳分布，从而减少分布不匹配引起的误差，并在广泛的连续控制离线 RL 数据集上展现出竞争性的性能。

Jun, 2022

离线强化学习作为反探索策略

本研究提出了一种新的离线强化学习代理，将基于奖励的勘探法的探索奖励从奖励中减去，以使策略保持在数据集的支持范围内，并连接该方法到对学习策略向数据集的普遍约束的正则化，通过基于变分自动编码器的预测误差的奖励进行实例化，证明了该代理在一组连续控制运动和操作任务的状态下存在竞争力。

Jun, 2021

离线强化学习中的结构化非稳定性数据集

当前强化学习通常受到需要大量数据来学习成功策略的限制。离线强化学习旨在通过使用由不同行为策略收集到的转换来解决这个问题。我们提出了一种基于对比预测编码的方法，该方法识别了离线数据集中的非稳定性，在训练策略时对其进行考虑，并在评估过程中进行预测。我们分析了我们提出的方法，并展示了它在简单的连续控制任务和具有挑战性的高维运动任务中的良好表现。我们证明了我们的方法往往达到了最优性能，并且比基线方法表现更好。

May, 2024

使用残差生成建模提升离线强化学习

本文主要研究离线强化学习中的生成建模和状态 - 动作值函数学习，并提出了一种新的针对离线强化学习中策略近似误差的残差生成模型 AQL。实验证明，AQL 可以在不同质量测试数据集中学习到更准确的政策近似。另外，该离线 RL 方法在多人在线战场游戏 “王者荣耀” 中能够学习到更具竞争力的 AI 代理。

Jun, 2021

FlowPG: 限制动作的策略梯度与正态流

使用正规化流模型将策略输出转换为有效动作，提高行动受限强化学习中的有效性和效率，并减少约束违规。

Feb, 2024