基于视觉感知的风险感知机器抓取的分位数 QT-Opt

Oct, 2019

基于视觉感知的风险感知机器抓取的分位数 QT-Opt

Quantile QT-Opt for Risk-Aware Vision-Based Robotic Grasping

Cristian Bodnar, Adrian Li, Karol Hausman, Peter Pastor, Mrinal Kalakrishnan

TL;DR本研究探讨利用分布式 Q-learning 算法的分布透视理论在连续状态空间下的应用，提出了一种新的基于分位数的 Q-learning 算法 Q2-Opt，成功应用于视觉机器人夹取任务，并探究了其风险扭曲函数，同时采用批量强化学习算法进行实验，与以往变量离散的实验结果对比，结果表明 Q2-Opt 在机器人夹取任务机器人夹取成功率上的表现更为优异。

Abstract

The distributional perspective on reinforcement learning (RL) has given rise to a series of successful Q-learning algorithms, resulting in state-of-the-art performance in arcade game environments. However, it has not yet been analyzed how these findings from a discrete setting translat

reinforcement learning distributed q-learning continuous domains robotic grasping risk management

发现论文，激发创造

隐式分位数网络用于分布式强化学习

本文介绍了一种基于分布式强化学习的方法，通过使用分位回归来逼近状态 - 动作回报分布的全量位函数来得到一个灵活、高效且可应用于各种环境的动态规划方法，并通过在 57 个 Atari 2600 游戏中的表现来展示算法的性能，并使用其隐式定义的分布来研究风险敏感性政策在 Atari 游戏中的效果。

Jun, 2018

QT-Opt：基于视觉的机器人操作的可伸缩深度强化学习

本文提出了一种基于 QT-Opt 的可扩展自监督视觉强化学习框架，该框架能够利用超过 580k 的真实抓取尝试来训练一个具有超过 1.2M 个参数的深度神经网络 Q 函数，实现闭环实际抓取并能够推广到 96% 的机器人抓取任务中，而且不仅实现了极高的成功率，而且通过 RGB 视觉感知和操纵，自动学习了重抓策略，动态响应干扰与扰动，并能够重新定位物品和执行其他非抓取前的操作。

Jun, 2018

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017

使用双时间尺度策略梯度算法的基于分位数的深度强化学习

在强化学习中考虑累积奖励分位数优化的问题，使用神经网络参数化策略，提出了 Quantile-Based Policy Optimization（QPO）和 Quantile-Based Proximal Policy Optimization（QPPO）算法来解决深度强化学习问题，实验结果表明该方法在分位数优化指标下优于现有基准算法。

May, 2023

基于分位数的强化学习策略优化

本文提出了一种名为 Quantile-Based Policy Optimization（QPO）的 RL 算法，与原有算法相比在 quantile 目标的情况下表现更好，算法使用神经网络对策略进行参数化，同时使用两个相互耦合的迭代来估计量位和策略参数。

Jan, 2022

QUOTA：用于强化学习的分位数选项架构

该论文提出了量化期权体系结构（QUOTA），基于分布式强化学习的最新进展进行探索。 QUOTA 具有新的探索维度，同时利用价值分布的乐观和悲观。在具有挑战性的视频游戏和物理机器人模拟器中，我们证明了 QUOTA 的性能优势。

Nov, 2018

分布式强化学习全参数分位函数

本文提出了一种新的分布式强化学习算法，该算法采用完全参数化分位函数，通过参数化分位函数的分位数量轴和值轴来更好地估计连续分布，并在 Atar 游戏环境中得到了前所未有的表现。

Nov, 2019

连续控制增强学习：分布分布式 DrQ 算法

Distributed Distributional DrQ 是一个无模型离线 RL 算法，用于连续控制任务，基于代理的状态和观测，是一个带有数据增强和评论家值函数分布性观点的演员 - 评论家方法。通过使用分布分布式 DDPG 作为基础，该算法在各种连续控制任务中取得了出色的性能。

Apr, 2024

掌握视觉连续控制：改进的数据增强强化学习

DrQ-v2 是一个模型无关的强化学习算法，基于 off-policy actor-critic 方法和数据增强，可从像素直接学习并在 DeepMind Control Suite 中实现了复杂的人形运动任务，提供了强大且计算效率高的基线实现。

Jul, 2021

基于价值分布的模型化强化学习

基于模型的贝叶斯强化学习视角，本研究旨在学习马尔科夫决策过程中基于参数（认知）不确定性引发的值函数后验分布的不确定性，通过引入一个 Bellman 算子，我们提出了 Epistemic Quantile-Regression (EQR) 算法，该算法学习了一个值函数分布，可用于策略优化，在几个连续控制任务中进行评估，表现优于已建立的基于模型和无模型算法。

Aug, 2023