基于准度量学习的最优目标达成强化学习

Apr, 2023

基于准度量学习的最优目标达成强化学习

Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning

Tongzhou Wang, Antonio Torralba, Phillip Isola, Amy Zhang

TL;DR本文介绍了一种新的强化学习（Reinforcement Learning）方法 ——Quasimetric Reinforcement Learning（QRL），该方法利用拟度量结构来学习最优值函数，与以往的方法不同，QRL 目标专门设计给拟度量，并提供了强有力的理论恢复保证。实证分析证明，相比于替代方案，QRL 在离线和在线目标达成基准测试中也表现出更好的样本效率和性能，在基于状态和基于图像的观察中都是如此。

Abstract

In goal-reaching reinforcement learning (RL), the optimal value function has a particular geometry, called quasimetric structure. This paper introduces →

quasimetric reinforcement learning optimal value function geometry recovery guarantees sample efficiency

发现论文，激发创造

基于度量学习的目标条件离线强化学习

我们通过提出一种新的优化目标，在稀疏奖励、对称和确定性操作的目标条件离线强化学习问题中，近似计算最优值函数。实验结果表明，我们的方法在从次优离线数据集中学习时始终优于其他离线强化学习方法，并且在处理高维观测和多目标任务方面也表现出很好的效果。

Feb, 2024

CQM：基于量化世界模型的课程强化学习

我们提出了一种新的课程方法，通过自动定义语义目标空间以及在其上提出课程目标来缓解以往方法在高维度空间中生成课程目标时遇到的挑战，并改善课程的可伸缩性。我们通过向量量化变分自动编码器 (VQ-VAE) 将连续观测离散化，并通过图形恢复离散观测之间的时序关系。同时，我们提出了考虑不确定性和时间距离的课程目标，这些目标能够收敛到自动组合的目标空间的最终目标。我们证明了该方法仅仅通过原始目标示例就能在未知环境中实现高效探索，且在各种目标达成任务中，甚至使用自我中心视觉输入时，该方法在数据效率和性能上都优于最先进的课程增强学习方法。

Oct, 2023

基于分位数的强化学习策略优化

本文提出了一种名为 Quantile-Based Policy Optimization（QPO）的 RL 算法，与原有算法相比在 quantile 目标的情况下表现更好，算法使用神经网络对策略进行参数化，同时使用两个相互耦合的迭代来估计量位和策略参数。

Jan, 2022

使用强化学习加速二次优化

使用强化学习 RLQP 策略自动调整参数，加速求解二次优化问题，与现有算法相比，RLQP 能显著提高性能并普适适用于不同应用场景。

Jul, 2021

双线性值网络

通过引入双线性分解的机制，将 Q-value 函数表示为两个向量场之间的点积形式，实现了在实现多目标强化学习过程中 Q-value 函数的优化，提高了数据效率和跨任务泛化能力。

Apr, 2022

使用双时间尺度策略梯度算法的基于分位数的深度强化学习

在强化学习中考虑累积奖励分位数优化的问题，使用神经网络参数化策略，提出了 Quantile-Based Policy Optimization（QPO）和 Quantile-Based Proximal Policy Optimization（QPPO）算法来解决深度强化学习问题，实验结果表明该方法在分位数优化指标下优于现有基准算法。

May, 2023

基于视觉感知的风险感知机器抓取的分位数 QT-Opt

本研究探讨利用分布式 Q-learning 算法的分布透视理论在连续状态空间下的应用，提出了一种新的基于分位数的 Q-learning 算法 Q2-Opt，成功应用于视觉机器人夹取任务，并探究了其风险扭曲函数，同时采用批量强化学习算法进行实验，与以往变量离散的实验结果对比，结果表明 Q2-Opt 在机器人夹取任务机器人夹取成功率上的表现更为优异。

Oct, 2019

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017

基于价值分布的模型化强化学习

基于模型的贝叶斯强化学习视角，本研究旨在学习马尔科夫决策过程中基于参数（认知）不确定性引发的值函数后验分布的不确定性，通过引入一个 Bellman 算子，我们提出了 Epistemic Quantile-Regression (EQR) 算法，该算法学习了一个值函数分布，可用于策略优化，在几个连续控制任务中进行评估，表现优于已建立的基于模型和无模型算法。

Aug, 2023

QUOTA：用于强化学习的分位数选项架构

该论文提出了量化期权体系结构（QUOTA），基于分布式强化学习的最新进展进行探索。 QUOTA 具有新的探索维度，同时利用价值分布的乐观和悲观。在具有挑战性的视频游戏和物理机器人模拟器中，我们证明了 QUOTA 的性能优势。

Nov, 2018