基于数据增强的模型驱动增强学习用于解决实际迷宫游戏的高样本效率学习

Dec, 2023

基于数据增强的模型驱动增强学习用于解决实际迷宫游戏的高样本效率学习

Sample-Efficient Learning to Solve a Real-World Labyrinth Game Using Data-Augmented Model-Based Reinforcement Learning

Thomas Bi, Raffaello D'Andrea

TL;DR通过基于模型的强化学习技术，本研究提出了一种用于导航和解决迷宫游戏的机器人系统的开发与训练。该方法通过从摄像头图像中提取低维观测以及裁剪和校正的以迷宫当前位置为中心的图像块，为迷宫布局提供了有价值的信息。控制策略的学习完全在物理系统上进行，使用基于模型的强化学习方法，其中沿着迷宫路径的进展作为奖励信号。此外，我们利用系统固有的对称性增加了训练数据。因此，我们的方法通过仅使用 5 小时的真实世界训练数据，在极短时间内成功解决了一种流行的真实世界迷宫游戏。

Abstract

Motivated by the challenge of achieving rapid learning in physical environments, this paper presents the development and training of a robotic system designed to navigate and solve a labyrinth game using model-based reinforcement learning techniques. The method involves extracting low-

robotic system model-based reinforcement learning labyrinth game observations training data

发现论文，激发创造

基于轨迹的球迷宫游戏学习

本研究介绍了一种简单的方法来应用轨迹学习方法，以增加深度强化学习方法的样本效率，该方法应用于文献中最近引入的具有挑战性的球迷宫游戏，并展示了通过使用模拟器为模型生成有限数量的轨迹，可以在不使用人工生成轨迹的情况下，获得约 2-3 倍的学习加速度，同时讨论了在使用基于轨迹的学习处理非常稀疏的奖励函数时面临的一些挑战。

Nov, 2018

四足机器人数据有效强化学习

本文提出了一种基于模型的机器人运动框架，在只采集 4.5 分钟（45,000 个控制步骤）的四足机器人数据的基础上实现了步行，通过引入跟踪多个时间步长上的模型预测的损失函数来准确地建模机器人的动力学，使学习到的模型可以进行实时控制，此方法比当前的无模型方法在样本效率上提高了一个数量级以上。

Jul, 2019

基于互动回放的机器人导航单次强化学习

通过基于单次环境遍历构建交互世界模型、预训练视觉特征编码器和随机环境增强的方法，提出了一种在移动机器人上学习导航到固定目标并在已知环境中进行零样本迁移的方法。该方法成功应用于真实环境变化下的导航问题，避免了过拟合问题。

Nov, 2017

深度强化学习下的行走学习

本文提出了一种基于最大熵强化学习的样本有效的深度强化学习算法，用于学习独立于机器人动力学模型的实际机器人行走姿势，仅需要少量试验即可。实验结果表明，我们的方法可以帮助机器人在约两个小时内直接从零开始建立稳定步态，而不需要任何模型或仿真。同时，我们展现了本算法在单个较佳超参数上实现了最先进的性能，与环境中的适度变化相容。

Dec, 2018

在公园散步：学习无模型强化学习在 20 分钟内行走

研究展示了在现实世界中通过深度强化学习和机器学习算法，结合先进的机器人控制器，可以在仅 20 分钟内在多个室内和户外地形上学习四足动物的步态，以及对于设计决策的模拟环境评估。

Aug, 2022

异步人类反馈下的自主机器人强化学习

实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战，但本研究描述了一个实际的强化学习系统，通过在真实环境中进行训练，并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下，通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明，该系统能够有效地学习行为。

Oct, 2023

无需奖励工程的端到端机器人强化学习

本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法，有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性，并证明该方法可使机器人从图像中直接学习知识，且仅需 1-4 个小时与实际世界进行交互。

Apr, 2019

非抓取性操作的强化学习：从仿真到物理系统的转移

本研究使用一种修改自然策略梯度算法的模型，通过模拟学习并训练，成功将自主控制策略从虚拟系统转移到由三个机器人组成的物理系统中，并证明使用多个模型训练可以使学习到的策略更加稳健，从而弥补了系统识别的困难。

Mar, 2018

机器人操作中贝叶斯模型的主动探索

通过积极学习方法和贝叶斯神经网络模型，提高机器人操纵的模型质量和数据效率，以应对复杂环境下的多任务处理挑战。

Apr, 2024

最小人力学习在现实世界中行走

使用深度强化学习中的多任务学习技术和安全控制框架在实际机器人系统中实现了自动学习四条腿机器人在三种不同地形上的步态。

Feb, 2020