物理机器人实时控制的异步强化学习
提出一种使用异步梯度下降法优化深度神经网络控制器的深度强化学习框架,演示了四种标准强化学习算法的异步变体,并表明并行actor-learner对训练具有稳定作用。其中最佳表现的方法,即actor-critic的异步变体,在Atari领域超越了现有的最佳表现,并且仅在单个多核CPU上训练一半的时间而不是GPU。此外,还演示了异步actor-critic成功处理了各种连续运动控制问题以及使用视觉输入导航随机3D迷宫的新任务。
Feb, 2016
本文探讨了分布式异步策略学习作为实现机器人具备普适性和提高复杂任务训练效率的手段。实验证明,使用这种方法可以提高机器人对任务的泛化、利用和训练时间效率,从而在视觉门开启任务中取得更好的效果。
Oct, 2016
本研究使用深度强化学习的actor-critic算法,利用物理模拟器的完全状态可观测性,针对机器人操作中的部分观测(RGBD图像)的问题进行训练,通过使用不对称输入来显著提高性能,并使用领域随机化的方法,实现了在没有真实世界数据的情况下,在真实机器人上进行的模拟到真实世界的转移。
Oct, 2017
通过在多个商业机器人上实施我们引入的多个强化学习任务,通过对其四种增强学习算法的学习性能进行测试并分析其对超参数的灵敏度,揭示出这些算法的实际应用性。我们发现现代学习算法对超参数非常敏感,为了获得最佳性能需要为每个任务重新调整参数。
Sep, 2018
本文提出了一种扩展Deep Deterministic Policy Gradient(DDPG)的算法Asynchronous Episodic DDPG(AE-DDPG),通过异步学习和组合应用周期控制和动态噪声等技术,该算法在连续控制任务中取得更好的结果,具有更高的奖励和更高的数据利用效率。
Mar, 2019
本研究提出了实时分布式学习系统ReLoD,将两种深度强化学习算法SAC和PPO的计算分布在本地计算机和远程计算机上,评估结果表明SAC算法受资源限制影响较大,但适当的计算分配可显著改善其性能;而PPO算法不受计算分配影响。该系统是适用于多种机器人视觉任务的唯一公共实时强化学习系统。
Oct, 2022
我们提出了一种异步的多智能体强化学习算法,Asynchronous Coordination Explorer (ACE),可以在处理机器人探索问题时减少实际探索时间,并通过使用基于CNN的策略将遗失的机器人维护在一个团队中。
Jan, 2023
实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战,但本研究描述了一个实际的强化学习系统,通过在真实环境中进行训练,并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下,通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明,该系统能够有效地学习行为。
Oct, 2023
本研究解决了当前强化学习在实际应用中需要超越人类反应能力而带来的决策频率过慢的问题。提出的序列强化学习(SRL)算法能够在较低决策频率下生成有效的动作序列,利用"时间回忆"机制提高学习信号的效率。实验结果表明,SRL在多个连续控制任务上表现优异,并显著降低了样本复杂度,适用于需要可变决策频率的应用。
Oct, 2024