掌握视觉连续控制:改进的数据增强强化学习
Distributed Distributional DrQ 是一个无模型离线 RL 算法,用于连续控制任务,基于代理的状态和观测,是一个带有数据增强和评论家值函数分布性观点的演员 - 评论家方法。通过使用分布分布式 DDPG 作为基础,该算法在各种连续控制任务中取得了出色的性能。
Apr, 2024
本论文将 Deep Q-Learning 算法应用于连续动作域,并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法,可在连续动作空间中进行操作,成功解决了 20 多个模拟物理任务,并能与完全访问动态并了解其导数的规划算法相竞争,并证明该算法对许多任务能够进行端到端学习。
Sep, 2015
本文介绍了一种基于机器学习的系统,用于仅基于视觉感知控制机器人操作器。首次展示了只从原始像素图像学习机器人控制器的能力,而不需要对配置有任何先前知识。我们建立在最近深度强化学习的成功基础之上,并开发出一种利用外部视觉观察学习三关节机器人操作器目标到达的系统。经过在仿真中的训练后,Deep Q 网络(DQN)被证明能够执行目标到达。将网络转移到真实硬件和真实观察的朴素方法失败了,但实验证明在用合成图像代替相机图像时,网络可以正常工作。
Nov, 2015
基于经验证据,本研究使用变分量子电路 (VQC) 作为函数逼近器构建了深度 Q - 学习模型,研究了该模型在经典控制基准环境中的性能和可训练性,探讨了数据重新上传对这些指标的影响,并发现 VQC 在这种环境中具有适用性,且在逼近 2 设计时,增加量子比特数不会导致梯度的幅度和方差指数级递减。
Jan, 2024
本研究探讨利用分布式 Q-learning 算法的分布透视理论在连续状态空间下的应用,提出了一种新的基于分位数的 Q-learning 算法 Q2-Opt,成功应用于视觉机器人夹取任务,并探究了其风险扭曲函数,同时采用批量强化学习算法进行实验,与以往变量离散的实验结果对比,结果表明 Q2-Opt 在机器人夹取任务机器人夹取成功率上的表现更为优异。
Oct, 2019
本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法,并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型,通过选择指定像素、目标图像或图像分类器作为目标设定方法,探索实现前所未见的任务和物体的普遍泛化。
Dec, 2018
本文介绍了一种新颖的深度加强学习算法 ——Deep Quality-Value(DQV) Learning。通过测试两个经典强化学习问题和四个 Atari 游戏,结果表明,DQV 比 Deep Q-Learning 和 Double Deep Q-Learning 学习得更快,更好,表明该算法可能是一种比当前 DRL 中已有的同步时差算法表现更好的算法。
Sep, 2018
该研究提出了一种模型无关的深度强化学习方法,利用少量的演示数据来协助强化学习代理。作者将该方法应用于机器人操作任务并训练了端到端的视觉 - 动力学策略,直接从 RGB 相机输入到关节速度。实验结果表明,与仅使用强化学习或模仿学习训练代理的结果相比,作者的强化和模仿代理取得了显著的性能提高。此外,这些训练有素的策略在模拟到现实世界的零样本情况下也能获得初步的成功。
Feb, 2018