运动中的思考：深度强化学习与并发控制

ICLRApr, 2020

运动中的思考：深度强化学习与并发控制

Thinking While Moving: Deep Reinforcement Learning with Concurrent Control

Ted Xiao, Eric Jang, Dmitry Kalashnikov, Sergey Levine, Julian Ibarz...

TL;DR本文研究了强化学习在控制系统中的并发控制问题，提出了一种基于连续时间贝尔曼方程的离散化方法，结合深度强化学习算法实现了一个新的近似动态规划方法，并在仿真和实际机器人抓取任务中进行了验证。

Abstract

We study reinforcement learning in settings where sampling an action from the policy must be done concurrently with the time evolution of the controlled system, such as when a robot must decide on the next action while still performing the previous action. Much like a person or an anim

reinforcement learning concurrent control continuous-time formulation approximate dynamic programming deep reinforcement learning

发现论文，激发创造

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

深度强化学习联合学习构造和控制智能体

运用深度强化学习，开发能够同时优化机器人设计和控制策略的方法，在机器人行走的场景下展示出在性能和效率方面均优于基准算法的优越性。

Jan, 2018

异步离线更新下的机器人操作深度强化学习

本文介绍一种基于深度 Q 函数算法的深度强化学习方法，能够实现在真实的物理机器人上进行复杂的 3D 操作任务学习，并通过多个机器人异步汇聚优化策略更新等技术进一步提高训练效率。

Oct, 2016

生物和机器人系统无模型强化学习的深入研究：理论与实践

动物和机器人存在于物理世界中，并必须协调其身体以实现行为目标。最近在深度强化学习方面的发展使得科学家和工程师可以利用物理模拟的身体和环境来获得特定任务的感觉运动策略（策略）。然而，这些方法的效用超出了特定任务的限制；它们为理解动物感觉运动系统与其形态和与环境的物理相互作用的组织提供了一个令人兴奋的框架，同时也可为机器人系统中感知和执行的一般设计规则的推导提供支持。通过使用深度强化学习中的 extit {演员 - 评论家} 方法，我们在这里提出数学和算法方面的简洁阐述作为研究动物和机器人行为背后的反馈控制的工具。

May, 2024

在 3D 游戏中使用并行动作的模仿学习

本文介绍了一种新颖的深度强化学习架构，其中利用了多动作策略来提高训练效率和性能，并结合了模仿学习和时序差分强化学习来快速训练视觉系统。

Mar, 2018

物理机器人实时控制的异步强化学习

本文论述了异步学习和顺序学习的比较，并在真实环境下使用机器人手臂和视觉任务进行了实验。研究结果表明，当学习更新的时间成本增加时，顺序学习的性能会显著下降，而异步学习会明显胜过顺序学习。

Mar, 2022

数据高效的灵巧操作深度强化学习

本研究使用深度学习和强化学习方法解决机器人的熟练操作任务，同样使用了 DDPG 算法来扩展其功能以实现更高效的数据利用与可伸缩性，成功地使用现实世界的抓取和叠放机器人的交互数据训练出其掌握复杂熟练操作技能的有效策略模型。

Apr, 2017

基于强化学习的行为规划与采样运动规划的自动驾驶集成

本文提出一种利用深度强化学习的自主驾驶行为规划模型，通过预测未来交通情况，将高层行为规划接口化，并通过循环规划策略进行实验验证。

Apr, 2023

人类速度：带有行动延迟的深度强化学习

该论文研究解决游戏人工智能的反应延迟问题，通过给智能体一个神经预测模型滞后，展示了超级斗地主 Bros. Melee 等游戏中对抗专业玩家的有效性。

Oct, 2018

用深度强化学习训练机器人的方法：我们所学到的教训

本文评估了深度强化学习在现实世界机器人中的应用，包括学习知觉和运动等复杂技能的案例研究以及相关挑战。

Feb, 2021