使用李群方向性的强化学习在机器人领域的应用

Sep, 2024

使用李群方向性的强化学习在机器人领域的应用

Reinforcement Learning with Lie Group Orientations for Robotics

Martin Schuck, Jan Brüdigam, Sandra Hirche, Angela Schoellig

TL;DR本研究解决了机器人和物体方向处理中的数学准确性不足问题，特别是在学习过程中。通过对网络输入和输出进行简单修改，使其符合方向的李群结构，从而实现了与现有学习库直接兼容的高效实现，并在多种情境下表现出显著优于常见方向表示的性能。

Abstract

Handling orientations of robots and objects is a crucial aspect of many applications. Yet, ever so often, there is a lack of mathematical correctness when dealing with orientations, especially in learning pipelines involving, for example, artificial neural networks. In this paper, we investigate →

发现论文，激发创造

利用强化学习学习不变特征空间进行技能转移

本文介绍了一个强化学习算法，用于在不同形态的机器人中传递知识并实现多种技能的学习。模拟实验结果表明，我们可以在不同连接数和肌腱驱动和扭矩驱动机器人的模拟环境中传递知识和技能。

Mar, 2017

神经动态策略的端到端感觉-运动学习

该论文提出了一种新的策略表示——神经动力学策略，通过将动力学系统嵌入到神经网络策略中，通过二阶微分方程来重新参数化动作空间以实现端到端的政策学习，并在几个机器人控制任务中展示了神经动态策略比传统的基于先验的策略学习方法更高的效率和性能表现。

Dec, 2020

超越选取和放置：应对多样形状的机器人堆叠

本文使用增强学习方法和视觉技术在真实环境中完成对复杂物体进行叠放的任务，重点研究了这种方法的优越性和训练问题。

Oct, 2021

强化学习中三维旋转的Bingham策略参数化

提出了一种新的策略参数化方式，Bingham Policy Parameterization（BPP），它可以更好地模拟Bingham分布，从而比高斯策略参数化在一系列强化学习任务中具有更好的旋转（四元数）预测能力。

Feb, 2022

通过多个对抗性运动先验在强化学习中进行高级技能训练

本文提出了一种基于对抗性先验的多样式强化学习方法，通过引入多种风格的先验知识，成功实现了机器人在不同风格下的运动控制和技能学习，无需人工设计奖励函数。

Mar, 2022

基于肌肉协同作用的低秩模块化强化学习

本研究提出了一种基于协同作用的学习（SOLAR）框架，利用机器人控制中度自由度的冗余特性，将执行器分为若干个协同作用组，并学习一种协同作用动作来同步控制多个执行器。通过这种方式，在协同作用水平上实现低秩控制，其可有效地控制机器人的运动。在机器人形态多样化的数据集上取得了良好的控制效果。

Oct, 2022

表示抽象作为强化学习智能体的激励机制: 一个机器人抓取的案例研究

选择适当的环境表示对于强化学习代理的决策过程并不总是直观的，本研究考察了不同状态表示对于激励代理解决机器人任务的影响，结果显示使用数字状态的强化学习代理与非学习基线表现相当，而使用经过预训练环境嵌入向量的图像表示的代理表现更好，推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。

Sep, 2023

协变强化学习框架在协调运动控制中的应用

利用CoordiGraph，通过在学习过程中嵌入重力影响下的等变性原则来增强强化学习中的动作控制协调性，以提高对关节之间微妙关系建模的方法。与当前主要方法相比，CoordiGraph显著提高了泛化和样本效率。

Mar, 2024

深度强化学习在机器人领域的应用：现实世界成功案例的综述

本研究解决了深度强化学习（DRL）在机器人应用时面临的复杂性和成本问题。通过对DRL在开发现代机器人能力方面成功案例的综合分析，揭示了其关键因素和未被充分探索的领域，并提出未来研究的方向，重点在于稳定高效的RL范式和整合多种能力的系统性方法。这项工作为RL从业者和机器人研究人员提供了重要的见解，帮助他们利用RL的优势开发更具能力的实际机器人系统。

Aug, 2024

利用对称性加速自由飞行机器人系统轨迹跟踪控制器的学习

本研究解决了强化学习在高维系统中采样效率低和奖励设计挑战的问题。通过利用具有漂浮基底的机器人系统的李群对称性，将轨迹跟踪问题建模为马尔科夫决策过程，从而实现了在低维度“商”MDP上训练策略并应用于原始系统的最优控制器。研究表明，这种对称性的方法在加速训练和减少跟踪误差方面都具有显著效果。

Sep, 2024