基于度量学习的目标条件离线强化学习

Feb, 2024

基于度量学习的目标条件离线强化学习

Goal-Conditioned Offline Reinforcement Learning via Metric Learning

Alfredo Reichlin, Miguel Vasco, Hang Yin, Danica Kragic

TL;DR我们通过提出一种新的优化目标，在稀疏奖励、对称和确定性操作的目标条件离线强化学习问题中，近似计算最优值函数。实验结果表明，我们的方法在从次优离线数据集中学习时始终优于其他离线强化学习方法，并且在处理高维观测和多目标任务方面也表现出很好的效果。

Abstract

In this work, we address the problem of learning optimal behavior from sub-optimal datasets in the context of goal-conditioned offline reinforcement learning. To do so, we propose a novel way of approximating the optimal value function for goal-conditioned offline RL problems under sparse rew

goal-conditioned offline reinforcement learning sparse rewards symmetric and deterministic actions metricrl high-dimensional observations

发现论文，激发创造

FOCAL：通过距离度量学习和行为规范实现高效完全离线的元强化学习

本研究旨在通过实施行为规范化、采用确定性上下文编码器及负幂距离度量等新方法，构建一种全新的、终端到终端的离线元元强化学习算法，以解决元强化学习中 “脱离分布状态动作引起的自举误差” 和 “训练策略学习的效率和健壮性” 等两大挑战，并将该算法应用于多种元强化学习基准测试中，展示了较为出色的性能。

Oct, 2020

从零开始设计离线强化学习目标

本文提出了一种基于对比学习框架的评分指标，能够更准确地排名离线策略并用于监督式的离线策略优化，其在各种离线增强学习基准测试中表现优异，需求的策略网络容量更低、无需额外的网络配合。

Jan, 2023

HIQL：将潜在状态作为行动的离线目标条件强化学习

无监督预训练成为了计算机视觉和自然语言处理的基石。强化学习中的目标条件下增强学习可以提供类似的自监督方法，以利用大量无标签（无回报）数据。本文提出了一种基于层次结构的算法，用于从离线数据中进行目标条件下的增强学习，并证明了该方法对估计值函数中的噪声具有鲁棒性，并且能够解决具有长时间跨度的任务。

Jul, 2023

基于准度量学习的最优目标达成强化学习

本文介绍了一种新的强化学习（Reinforcement Learning）方法 ——Quasimetric Reinforcement Learning（QRL），该方法利用拟度量结构来学习最优值函数，与以往的方法不同，QRL 目标专门设计给拟度量，并提供了强有力的理论恢复保证。实证分析证明，相比于替代方案，QRL 在离线和在线目标达成基准测试中也表现出更好的样本效率和性能，在基于状态和基于图像的观察中都是如此。

Apr, 2023

离线目标条件强化学习的评分模型

基于离线数据集、无初始监督、且没有判别器的分布匹配方法 (SMORe) 在 GCRL 中取得了显著的性能提升。

Nov, 2023

重新思考目标导向式监督学习及其与离线强化学习的关联

本文提出了一种名为 Weighted GCSL 的离线目标导向强化学习算法，通过引入高级复合权重，优化目标达成的下界限，具有优异的性能表现，特别适用于点和模拟机器人方面。

Feb, 2022

基于伪度量学习的离线强化学习

本研究提出了一种离线强化学习方法，其中使用迭代过程学习伪度量（与双仿度量密切相关），并将其用于定义与记录转换接近的状态操作对，同时利用此伪度量定义了一个基于查找的奖励，以帮助 actor-critic 算法在手动操作和运动任务中学习。

Mar, 2021

可证明离线强化学习与人类反馈

研究离线强化学习中的难点问题，利用最大似然估计从离线数据中估计隐式奖励，并在 MLE 的置信区间内解决分布鲁棒规划问题，引入了新的单一策略浓缩系数测量。

May, 2023

基于好奇心探索的目标条件离线规划

通过分析优化目标条件下的价值函数的几何特征，我们提出了一种使用基于模型的规划和基于图形的价值聚合方案相结合的方法来纠正学习价值函数中的估计伪像，并在各种模拟环境中显著提高了零 - shot 目标达成性能。

Nov, 2023

离线强化学习：值函数逼近的基本限制

本研究针对离线强化学习问题，研究了在实践中越来越受到关注的离线值函数逼近方法，发现其需要有限制的覆盖条件或超出监督学习的表示条件，并提出了所谓的过覆盖现象，阐述了在线和离线强化学习之间的巨大分离性，最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。

Nov, 2021