生物和机器人系统无模型强化学习的深入研究：理论与实践

May, 2024

生物和机器人系统无模型强化学习的深入研究：理论与实践

Deep Dive into Model-free Reinforcement Learning for Biological and Robotic Systems: Theory and Practice

Yusheng Jiao, Feng Ling, Sina Heydari, Nicolas Heess, Josh Merel...

TL;DR动物和机器人存在于物理世界中，并必须协调其身体以实现行为目标。最近在深度强化学习方面的发展使得科学家和工程师可以利用物理模拟的身体和环境来获得特定任务的感觉运动策略（策略）。然而，这些方法的效用超出了特定任务的限制；它们为理解动物感觉运动系统与其形态和与环境的物理相互作用的组织提供了一个令人兴奋的框架，同时也可为机器人系统中感知和执行的一般设计规则的推导提供支持。通过使用深度强化学习中的 extit {演员 - 评论家} 方法，我们在这里提出数学和算法方面的简洁阐述作为研究动物和机器人行为背后的反馈控制的工具。

Abstract

animals and robots exist in a physical world and must coordinate their bodies to achieve behavioral objectives. With recent developments in deep reinforcement learning, it is now possible for scientists and engin

animals robots deep reinforcement learning sensorimotor strategies actor-critic methods

发现论文，激发创造

用深度强化学习训练机器人的方法：我们所学到的教训

本文评估了深度强化学习在现实世界机器人中的应用，包括学习知觉和运动等复杂技能的案例研究以及相关挑战。

Feb, 2021

非抓取性操作的强化学习：从仿真到物理系统的转移

本研究使用一种修改自然策略梯度算法的模型，通过模拟学习并训练，成功将自主控制策略从虚拟系统转移到由三个机器人组成的物理系统中，并证明使用多个模型训练可以使学习到的策略更加稳健，从而弥补了系统识别的困难。

Mar, 2018

视觉先见：基于模型的深度强化学习在基于视觉的机器人控制中的应用

本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法，并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型，通过选择指定像素、目标图像或图像分类器作为目标设定方法，探索实现前所未见的任务和物体的普遍泛化。

Dec, 2018

从数据拟合到探索：通过强化学习解读运动控制的神经动力学

通过研究虚拟机器人在进行腿部运动时的结构化神经活动，我们发现机器人训练后的神经轨迹比输入驱动的激励层的神经轨迹更为复杂，这一核心原则对于计算神经科学具有重要意义。

May, 2023

无需奖励工程的端到端机器人强化学习

本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法，有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性，并证明该方法可使机器人从图像中直接学习知识，且仅需 1-4 个小时与实际世界进行交互。

Apr, 2019

强化学习用于自由形态机器人设计

受动物形态适应的必要性的启发，一系列工作试图拓展机器人训练，以涵盖机器人设计的物理方面。然而，目前只有旋转或调整既定和静态拓扑属的肢体的强化学习方法。本文展示了一种设计具有任意外部和内部结构的自由形态机器人的策略梯度方法，通过使用放置或移除原子建筑块束以形成高级非参数宏结构，如附件、器官和腔室。尽管仅提供了开环控制的结果，但我们讨论了如何将该方法改进为闭环控制，并在未来实现从模拟到真实物理机器的转移。

Oct, 2023

深度视觉预见性规划机器人动作

本论文提出一种基于无标注训练数据的方法，结合深度动作条件视频预测模型和模型预测控制，使真实机器人能够进行非抓取操作，比如推动物体，并且可以处理训练过程中没有出现过的新物体。

Oct, 2016

物理嵌入式规划问题：强化学习的新挑战

通过在物理引擎中嵌入具有挑战性的符号任务（Sokoban，井字棋和围棋），引出了一组需要长时间视觉、推理和电机控制的任务，研究了现有的强化学习算法在这样的物理系统中的表现。同时，研究提出了使用预训练的专家游戏玩家为强化学习提供有用提示，缩小抽象规划和物体控制之间的差距的方案。

Sep, 2020

机器人学习控制的深度网络解决方案综述：从强化到模仿

该研究论文针对使用深度学习技术学习机器人控制策略，对深度强化学习和模仿学习两种主要学习控制范式进行了综述，包括了应对从模拟环境到现实场景中真实性差距的挑战，并总结了机器人仿真平台用于开展深度强化学习研究，同时介绍了三种主要的模仿学习范式及其相应的机器人应用，最终讨论了开放性挑战和研究前沿。

Dec, 2016

异步离线更新下的机器人操作深度强化学习

本文介绍一种基于深度 Q 函数算法的深度强化学习方法，能够实现在真实的物理机器人上进行复杂的 3D 操作任务学习，并通过多个机器人异步汇聚优化策略更新等技术进一步提高训练效率。

Oct, 2016