使用肌肉机器人从零开始学习乒乓球

Jun, 2020

使用肌肉机器人从零开始学习乒乓球

Learning to Play Table Tennis From Scratch using Muscular Robots

Dieter Büchler, Simon Guist, Roberto Calandra, Vincent Berenz, Bernhard Schölkopf...

TL;DR本文介绍一种利用气动人工肌肉和强化学习来安全地训练机器人学习打乒乓球的方法，同时演示了这种方法可以让机器人在高速运动下实现回球和攻击

Abstract

Dynamic tasks like table tennis are relatively easy to learn for humans but pose significant challenges to robots. Such tasks require accurate control of fast movements and precise timing in the presence of imprecise state estimation of the flying ball and the robot. →

reinforcement learning pneumatic artificial muscles robotic arms table tennis safety-critical

发现论文，激发创造

基于无模型强化学习的乒乓球机器人

通过控制机器人关节以 100Hz 的速度返回乒乓球，我们提出了一种模型无关的算法，并证明了进化搜索方法能够在非视觉输入和时间之间卷积的基础上作用于基于 CNN 的策略体系结构，学习紧凑的控制器，在适当调整任务和奖励的情况下，策略能够发展多模态样式，同时在广泛的球类投掷范围内实现 80％的回球率，观察到多模性不需要任何建筑先验知识。

Mar, 2020

机器人乒乓球：高速学习系统案例研究

该篇论文深入研究了一个真实世界的机器人学习系统，该系统能够和人类进行数百次乒乓球对打，并能够精确地将球返回到指定目标。论文提供了完整的系统描述，包括通常不广泛传播的设计决策，并附上一系列研究，澄清了减轻潜在延迟来源的重要性，考虑训练和部署分布变化的影响，感知系统的稳健性，策略超参数的敏感性以及行动空间的选择。

Sep, 2023

机器人空气曲棍球：用强化学习进行机器人学习的操纵测试平台

机器人空中曲棍球动态交互的强化学习实验平台，包括从简单的任务到复杂的任务，支持模拟到真实世界的迁移，并使用演示数据评估了行为克隆、离线强化学习和从零开始的强化学习。

May, 2024

使用深度强化学习为双足机器人学习敏捷的足球技能

本文研究了深度强化学习在机器人学中的应用，通过模拟训练，在低成本仿真机器人上实现了动态环境下复杂足球比赛中从走路到踢球等一系列动作表现出稳定流畅的运动技能，并取得了不错的效果。

Apr, 2023

非抓取性操作的强化学习：从仿真到物理系统的转移

本研究使用一种修改自然策略梯度算法的模型，通过模拟学习并训练，成功将自主控制策略从虚拟系统转移到由三个机器人组成的物理系统中，并证明使用多个模型训练可以使学习到的策略更加稳健，从而弥补了系统识别的困难。

Mar, 2018

多模态乒乓球机器人系统

基于高准确度视觉检测和快速机器人反应的改进型乒乓球机器人系统，通过多模态感知系统的创新校准方法实现了对旋转估计至关重要的精确度更高的旋转估计方法，并展示了结合基于事件的摄像头和脉冲神经网络（SNN）输出进行准确球检测的方法。

Oct, 2023

双手操作和连接的 Sim-to-Real 强化学习

该研究探讨如何使用强化学习针对具有挑战的双臂机器人任务，通过模拟训练，实现直接传递未经过滤的观察信息到神经网络模型并保证仿真环境与实际情况一致。设计了一个基于磁力连接的联结任务，通过两个 xArm6 机器人，并在此基础上验证了该强化学习方法的可行性，对于成功拾取方块和连结任务的成功率分别达到了 100％和 65％。

Mar, 2022

模型为基础的深度强化学习在空气曲棍球中的应用

开发自动打冰球策略的研究，使用基于模型的深度强化学习结合自我对抗学习，解决了智能机器人对于不同对手策略的泛化和过拟合问题。同时探讨了想象力视域对于机器学习效果的影响。

Jun, 2024

在线动态适应和神经网络先验的一次性操作技能学习

本研究提出了一种基于模型的强化学习算法，将以前任务的先验知识与在线动态模型适应相结合，实现了高效学习，并且成功地应用于各种复杂机器人操纵任务。

Sep, 2015

基于实时模型无关深度强化学习的串级弹性执行器力控制

该研究使用深度强化学习（DRL）方法，通过 Proximal Policy Optimization（PPO）算法，在 SEA 振荡系统的硬件环境中训练一个 DRL 策略，以实现高精度的力控制任务。研究结果表明，该 DRL 策略优于传统的基于模型的 PID 控制器，并能够实现更好的跟踪和稳定性保障。

Apr, 2023