掌握视觉连续控制：改进的数据增强强化学习

Jul, 2021

掌握视觉连续控制：改进的数据增强强化学习

Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning

Denis Yarats, Rob Fergus, Alessandro Lazaric, Lerrel Pinto

TL;DRDrQ-v2 是一个模型无关的强化学习算法，基于 off-policy actor-critic 方法和数据增强，可从像素直接学习并在 DeepMind Control Suite 中实现了复杂的人形运动任务，提供了强大且计算效率高的基线实现。

Abstract

We present drq-v2, a model-free reinforcement learning (RL) algorithm for visual continuous control. →

reinforcement learning visual continuous control drq-v2 off-policy actor-critic approach data augmentation

发现论文，激发创造

连续控制增强学习：分布分布式 DrQ 算法

Distributed Distributional DrQ 是一个无模型离线 RL 算法，用于连续控制任务，基于代理的状态和观测，是一个带有数据增强和评论家值函数分布性观点的演员 - 评论家方法。通过使用分布分布式 DDPG 作为基础，该算法在各种连续控制任务中取得了出色的性能。

Apr, 2024

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

面向基于视觉的深度强化学习的机器人运动控制

本文介绍了一种基于机器学习的系统，用于仅基于视觉感知控制机器人操作器。首次展示了只从原始像素图像学习机器人控制器的能力，而不需要对配置有任何先前知识。我们建立在最近深度强化学习的成功基础之上，并开发出一种利用外部视觉观察学习三关节机器人操作器目标到达的系统。经过在仿真中的训练后，Deep Q 网络（DQN）被证明能够执行目标到达。将网络转移到真实硬件和真实观察的朴素方法失败了，但实验证明在用合成图像代替相机图像时，网络可以正常工作。

Nov, 2015

基于 VQC 的数据重上传强化学习：性能和可训练性

基于经验证据，本研究使用变分量子电路 (VQC) 作为函数逼近器构建了深度 Q - 学习模型，研究了该模型在经典控制基准环境中的性能和可训练性，探讨了数据重新上传对这些指标的影响，并发现 VQC 在这种环境中具有适用性，且在逼近 2 设计时，增加量子比特数不会导致梯度的幅度和方差指数级递减。

Jan, 2024

基于视觉感知的风险感知机器抓取的分位数 QT-Opt

本研究探讨利用分布式 Q-learning 算法的分布透视理论在连续状态空间下的应用，提出了一种新的基于分位数的 Q-learning 算法 Q2-Opt，成功应用于视觉机器人夹取任务，并探究了其风险扭曲函数，同时采用批量强化学习算法进行实验，与以往变量离散的实验结果对比，结果表明 Q2-Opt 在机器人夹取任务机器人夹取成功率上的表现更为优异。

Oct, 2019

视觉先见：基于模型的深度强化学习在基于视觉的机器人控制中的应用

本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法，并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型，通过选择指定像素、目标图像或图像分类器作为目标设定方法，探索实现前所未见的任务和物体的普遍泛化。

Dec, 2018

基于视觉观测的离线强化学习中的挑战与机遇

本文旨在建立连续控制的视觉基线，通过离线强化学习从视角上建立简单的基线，并在数据集中严格评估算法，同时分析了离线视角下的重要的特殊需求。

Jun, 2022

深度品质 - 价值学习（DQV 学习）

本文介绍了一种新颖的深度加强学习算法 ——Deep Quality-Value（DQV） Learning。通过测试两个经典强化学习问题和四个 Atari 游戏，结果表明，DQV 比 Deep Q-Learning 和 Double Deep Q-Learning 学习得更快，更好，表明该算法可能是一种比当前 DRL 中已有的同步时差算法表现更好的算法。

Sep, 2018

针对多样化视觉动作技能的强化学习和模仿学习

该研究提出了一种模型无关的深度强化学习方法，利用少量的演示数据来协助强化学习代理。作者将该方法应用于机器人操作任务并训练了端到端的视觉 - 动力学策略，直接从 RGB 相机输入到关节速度。实验结果表明，与仅使用强化学习或模仿学习训练代理的结果相比，作者的强化和模仿代理取得了显著的性能提高。此外，这些训练有素的策略在模拟到现实世界的零样本情况下也能获得初步的成功。

Feb, 2018

视觉强化学习中无界数据增强的配方

通过数据增强的广义方法 SADA，可以提高 Q - 学习算法在视觉观察训练中的稳定性和泛化能力，适用于各种数据增强方式。

May, 2024