从符号化行为描述中推导强化学习的奖励函数 - 关于双足步行

Dec, 2023

从符号化行为描述中推导强化学习的奖励函数 - 关于双足步行

Deriving Rewards for Reinforcement Learning from Symbolic Behaviour Descriptions of Bipedal Walking

Daniel Harnack, Christoph Lüth, Lukas Gross, Shivesh Kumar, Frank Kirchner

TL;DR从符号描述中生成物理运动行为是人工智能和机器人技术中一个长期存在的挑战，本文提出了一种新颖的方法，从符号描述中找到奖励函数，并将该方法应用于双足行走领域。通过将行走机器人建模成一个混合自动机，并使用罗盘行走器推导出一个能激励遵循混合自动机循环的奖励函数，该方法减少了强化学习控制器的训练时间，同时提高了最终的行走速度，可作为从符号 AI 和推理中生成奖励函数的蓝图。

Abstract

Generating physical movement behaviours from their symbolic description is a long-standing challenge in artificial intelligence (AI) and <

physical movement behaviours symbolic description artificial intelligence robotics reinforcement learning

发现论文，激发创造

逆强化学习：从示范中推导与适应双足行走奖励学习

通过逆强化学习 (IRL) 技术解决复杂地形上的双足机器人行走问题，并提出用于学习专家奖励函数的算法，通过非线性函数逼近揭示专家的运动策略，同时通过训练推断奖励函数，提高双足机器人在未知地形上的行走性能。

Sep, 2023

面向符号自动机编码目标的无模型强化学习

本文提出使用符号自动机的形式规范，来代替马尔可夫奖励，并定义了使用潜在奖励的策略，来提高强化学习的收敛性。

Feb, 2022

基于模拟运动演示的机器人操纵强化学习

本文提出了一种新的机器人操作方法，该方法利用了物体本身的运动学习，通过使用物理模拟器中的对象运动策略生成辅助奖励，称为模拟运动演示奖励（SLDRs），该方法可以在不需要人类演示或昂贵成本的情况下，通过强化学习来掌握机器人操作技能，从而实现多物体堆放和非刚性物体操作等任务的更高成功率和更快学习。

Oct, 2019

解释性机器人行走的蒸馏强化学习策略：梯度提升机和符号回归

通过采用梯度提升机、可解释性提升机和符号回归的方法，将神经强化学习策略转化为透明的 “玻璃盒” 模型，用于提高控制策略的可解释性以及数据集聚合算法在行为克隆中的应用。

Mar, 2024

学习符号表示以实现非马尔可夫行为的强化学习

利用知识表示和自动机结构，本文提出了一种自动发现有用状态抽象的端对端算法，用于学习非 Markov 领域下优化策略，相较于最先进的强化学习算法，能够在更少的环境样本下得到更优的结果。

Jan, 2023

学习对称和低能量行走

该论文提出了一种新颖的基于深度强化学习（DRL）方法来训练机器人的步态控制算法，并引入了一种新的课程学习方法来提供适当的物理辅助，帮助机器人保持平衡和前进。

Jan, 2018

多功能、动态和鲁棒的双足步行运动控制的强化学习

使用深度强化学习（RL）创建动态双足机器人的运动控制器的综合研究，包括开发可用于周期性行走、跑步、跳跃和站立等一系列动态双足技能的通用控制解决方案，该 RL 控制器采用新颖的双重历史架构，通过长期和短期的输入 / 输出（I/O）历史数据有效训练，并在模拟和实际世界的各种技能中始终表现优秀。

Jan, 2024

深度强化学习中的嘈杂符号抽象：以奖励机器为案例研究

本篇文章提出了一种特殊的 POMDP 优化问题，研究当使用 Reward Machines 作为奖励函数语言时，对于状态到符号语言的映射不确定的情况下，如何通过强化学习生成策略，并通过实验证明了这种方法的有效性和现有方法的局限性。

Nov, 2022

基于强化学习的敏捷多功能双足机器人跟踪控制

基于模型基础的逆运动学求解器和强化学习，本文提出一种适用于双足机器人的多功能控制器，通过单一小型神经网络实现了踝关节和身体轨迹跟踪，能够在广泛的步态范围内完成这一任务。通过最小控制单元结合高级策略，可以实现高度灵活的步态控制，训练后的机器人能够自由地在不同距离和高度的目标支撑点之间移动，并且能够在维持静态平衡时调整姿势。实验结果证明了我们控制框架的有效性。

Apr, 2024

机器技能综合的语言到奖励转换

本文提出了一种新颖的方法，即通过利用大型语言模型 (LLMs) 定义奖励参数，从而优化和实现各种机器人任务，并结合实时优化器 MuJoCo MPC，使用户可以交互地创造行为并快速获得结果反馈。作者在一个模拟仿真机器人四足动物和一种机械手进行了 17 个任务的评价，证明了这种方法成功解决了 90% 的任务，并在真实机器人手臂上验证了方法的有效性，包括非握持推动等复杂操作技能。

Jun, 2023