正则化行为价值估计

Mar, 2021

Regularized Behavior Value Estimation

Caglar Gulcehre, Sergio Gómez Colmenarejo, Ziyu Wang, Jakub Sygnowski, Thomas Paine...

TL;DR本文提出一种基于离线强化学习的新方法 Regularized Behavior Value Estimation (R-BVE)，用于解决离线学习中过度估计值所导致的错误问题，该方法在 RL Unplugged ATARI 数据集以及其他数据集上取得了 state-of-the-art 的表现。

Abstract

offline reinforcement learning restricts the learning process to rely only on logged-data without access to an environment. While this enables real-world applications, it also poses unique challenges. One important challenge is dealing with errors caused by the overestimation of values

offline reinforcement learning regularized behavior value estimation policy improvement ranking regularisation state-of-the-art performance

发现论文，激发创造

自适应行为正则化的离线强化学习

本文提出了自适应行为正则化（ABR）的方法改善已有机器学习数据集中存在的行为采样偏差，从而提高了离线强化学习的效率和稳定性，并在 D4RL 数据集上实现了最新算法中更好或相当的性能。

Nov, 2022

行为规范化的离线强化学习

该研究针对强化学习中现实世界应用的局限性，提出了一种 BRAC 的方法，并通过多个离线 RL 任务的实验，发现许多技术上的复杂性是不必要的。

Nov, 2019

离线强化学习中的保守状态值估计

本文提出了一种名为 CSVE 的保守状态价值估计方法，利用惩罚来学习保守的 V 函数，应用于实际的演员 - 评论家算法中，具有更有效的数据策略优化和保守价值保证。在 D4RL 的经典连续控制任务中，我们的方法表现比保守 Q 函数学习方法更好，并在最近的 SOTA 方法中占据了强有竞争力的地位。

Feb, 2023

基于价值感知的情节记忆离线强化学习

本文提出了一种名为 Value-based Episodic Memory 的离线强化学习方法，该方法使用 V-function 代替 Q-function，并引入 Expectile V-Learning 和 implicit planning 来提高性能。在 D4RL 基准测试中，该方法在大多数任务中实现了优越的性能。

Oct, 2021

离线模型基强化学习中的达到边界问题

模型辅助的离线强化学习方法在现有理论框架下存在无法解决的边界问题，因此提出了针对此问题的效果显著的新方法 Reach-Aware Value Learning (RAVL)。

Feb, 2024

利用多源数据进行离线强化学习的行为估计

该研究提出了一种基于潜变量模型对离线强化学习中多源数据的行为估计进行精细化建模的方法，以解决现有方法在忽略数据异质性时容易出现行为估计错误的问题，并且在现有离线 RL 算法上的实验表明该方法的有效性。

Nov, 2022

稳健离线深度强化学习中克服模型偏差

本研究提出了一种基于动力学模型的离线策略搜索算法 MOOSE，使用动力学模型评估策略的性能，得出了比当下主流的无模型、离线强化学习算法 BRAC、BEAR 和 BCQ 更稳健的结果。

Aug, 2020

对比价值学习：简单离线强化学习的隐式模型

本文介绍了一种新的模型 - 基强化学习方法 Contrastive Value Learning 用于离线场景中，在不受奖励函数限制下，学习一个隐含的、多步骤的环境动力学模型，直接估计每个动作的价值，并在复杂的连续控制基准测试中优于先前的离线 RL 方法。

Nov, 2022

有限探索的双层离线策略优化

我们研究线下强化学习，旨在根据固定、预先收集的数据集学习出良好的策略。我们提出了一种双层结构的策略优化算法，通过模拟策略（上层）和值函数（下层）之间的层次交互来解决此任务中的分布偏移问题，尤其是在函数逼近的情况下。

Oct, 2023

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021