通过自主神经动态策略实现端到端稳定的模仿学习

May, 2023

通过自主神经动态策略实现端到端稳定的模仿学习

End-to-End Stable Imitation Learning via Autonomous Neural Dynamic Policies

Dionis Totsila, Konstantinos Chatzilygeroudis, Denis Hadjivelichkov, Valerio Modugno, Ioannis Hatzilygeroudis...

TL;DR本文介绍了一种基于自主动力学系统的 Autonomous Neural Dynamic Policies（ANDPs），其优点在于比传统的稳定动力学系统策略更加灵活。实验结果表明 ANDPs 在几种模仿学习任务中表现出出色的灵活性和能力。

Abstract

State-of-the-art sensorimotor learning algorithms offer policies that can often produce unstable behaviors, damaging the robot and/or the environment. Traditional robot learning, on the contrary, relies on dynamical system-based policies that can be analyzed for stability/safety. Such

sensorimotor learning algorithms dynamical system-based policies neural network policies autonomous neural dynamic policies imitation learning

发现论文，激发创造

神经动态策略的端到端感觉 - 运动学习

该论文提出了一种新的策略表示 —— 神经动力学策略，通过将动力学系统嵌入到神经网络策略中，通过二阶微分方程来重新参数化动作空间以实现端到端的政策学习，并在几个机器人控制任务中展示了神经动态策略比传统的基于先验的策略学习方法更高的效率和性能表现。

Dec, 2020

全球稳定的神经仿真策略

通过引入稳定神经动力系统（SNDS），我们提出了一种保证稳定性的模仿学习方案，该方案通过联合训练策略和对应的 Lyapunov 候选者来构建具有正式稳定性保证的策略。我们在模拟环境中进行了广泛的实验并成功地将训练得到的策略部署于真实的机械臂，实验结果表明我们的方法解决了以往模仿学习方法中的不稳定性、准确性和计算强度问题，为复杂规划场景中的稳定策略学习提供了有希望的解决方案。

Mar, 2024

Lyapunov 神经网络：自适应稳定性认证用于动态系统的安全学习

本文提出了一种基于神经网络构建 Lyapunov 函数并通过训练算法将其适应到状态空间中最大安全区域形状的方法，以学习非线性闭环动力系统的准确安全证明，并在模拟倒立摆中演示了该方法的应用，讨论了如何将该方法与动态系统的统计模型一起用于安全学习算法。

Aug, 2018

神经收缩动力系统

我们提出了一种新的方法来学习神经收缩动力系统，使得我们的神经网络结构确保收缩从而实现全局稳定性。为了有效地应用于高维动力系统，我们开发了一种变分自编码器的变体，它学习低维潜在表示空间中的动力学，并在解码后保持收缩稳定性。此外，我们进一步将我们的方法扩展到旋转李群上学习具有避障能力的收缩系统。经验证明，我们的方法比当前的最先进方法更准确地编码了所需的动力学，并提供了更强的稳定性保证。

Jan, 2024

POMDP 中的强健非对称学习

通过使用奖励最大化目标，我们提出了一种高效算法 A2D，共同训练专家和智能体，以帮助智能体模仿一个安全的专家策略，从而优于模仿固定专家所学习的策略。

Dec, 2020

安全的深度策略适应

SafeDPA 是一种处理策略适应性和安全强化学习问题的新型强化学习与控制框架，通过在仿真环境中联合学习自适应策略和动力模型，并通过少量现实数据进行动力模型微调，引入基于控制屏障函数的安全过滤器，以确保在现实世界部署中的安全性。SafeDPA 在安全性和任务性能方面表现出较大的优越性，实验证明在未见扰动的真实世界实验中，相比基准方法，安全率增加了 300%。

Oct, 2023

使用端到端深度模仿学习的敏捷自主驾驶

我们提出了一种使用低成本传感器进行敏捷越野自主驾驶的端到端模仿学习系统，通过模仿配备高级传感器的模型预测控制器，我们训练了一个深度神经网络控制策略，将原始的高维观测映射到连续的转向和油门命令，这个方法不需要状态估计或实时规划来导航车辆，并通过在线模仿学习克服了协变量漂移方面的挑战，实现了成功的高速越野行驶，匹配了最新的性能水平。

Sep, 2017

基于模型的参数化行动空间强化学习

我们提出了一种新颖的基于模型的强化学习算法 -- 具有参数化动作的动力学学习和预测控制 (DLPA)-- 用于参数化动作马尔可夫决策过程 (PAMDPs)。代理器通过学习参数化动作条件的动力学模型，并使用修改的模型预测路径积分控制进行规划。我们在利普希茨连续性的视角下，理论上量化了在规划过程中生成的轨迹与最优轨迹之间的差异。我们在几个标准基准测试中的实证结果表明，我们的算法在样本效率和渐近性能方面超过了最先进的 PAMDP 方法。

Apr, 2024

深度预测策略训练采用强化学习

通过使用深度预测策略训练框架，该研究提出了一种有效的方法来训练预测动作策略，使用合成和模拟训练样本来强制进行视觉和运动数据的抽象，以及使用策略搜索强化学习方法来训练每个任务的策略超层，该框架在 PR2 机器人上训练物体抓取和投球等技能任务，并且训练样本只使用了约 180 次实际机器人尝试，达到了很好的效果。

Mar, 2017

在线动态适应和神经网络先验的一次性操作技能学习

本研究提出了一种基于模型的强化学习算法，将以前任务的先验知识与在线动态模型适应相结合，实现了高效学习，并且成功地应用于各种复杂机器人操纵任务。

Sep, 2015