机器人学习工作：人在环内，部署期间的自主学习

Nov, 2022

机器人学习工作：人在环内，部署期间的自主学习

Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning During Deployment

Huihan Liu, Soroush Nasiriany, Lance Zhang, Zhiyao Bao, Yuke Zhu

TL;DR本文介绍了一种基于机器人学习的新框架 ——Sirius，通过人机分工实现了安全部署和复杂任务的有保障合作，并且利用了一种新的学习算法 —— 基于加权行为克隆技术，在模拟环境和真实硬件上均表现出色。

Abstract

With the rapid growth of computing powers and recent advances in deep learning, we have witnessed impressive demonstrations of novel robot capabilities in research settings. Nonetheless, these learning systems exhibit brittle generalization and require excessive training data for practical tasks. To harness the capabilities of state-of-the-art →

robot learning human-robot collaboration decision-making learning algorithm behavioral cloning

发现论文，激发创造

学习感知交互式自主安全性

为了确保机器人等自主车辆的广泛部署，本文提出了一种新的闭环范式用于综合安全控制策略，明确考虑系统在可能的未来情景下的演变不确定性，通过物理动力学和机器人的学习算法共同推理，利用对抗深度强化学习进行放大，展示了该框架能够处理贝叶斯信念传播和大规模预训练神经轨迹预测模型引起的隐式学习。

Sep, 2023

具备交互式仿真环境的人与机器人协同的手术机器人学习

本文研究人形态智能的应用于外科机器人学习的新交互式模拟平台，以人机交互的形式，以增加更有效的策略学习，通过收集人类示范并模仿动作模式，展示了仿真环境的改进和验证最先进的强化学习算法。

Jan, 2023

异步人类反馈下的自主机器人强化学习

实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战，但本研究描述了一个实际的强化学习系统，通过在真实环境中进行训练，并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下，通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明，该系统能够有效地学习行为。

Oct, 2023

使用远程遥操作的人在循环中模仿学习

本文介绍使用干预性策略学习的方法来解决机器人操作任务中必须经过精确定序的地方的问题，提出一种 6 自由度机器人操作任务的数据采集系统，并开发了一个简单而有效的算法来收集新数据以遍历通过这些难点，使用干预策略学习的代理在机器人的线路穿线任务和制造咖啡任务中的表现优于其他多种基线算法。

Dec, 2020

现实世界复杂环境中的人工智能协作与强化学习

在复杂的模拟环境中，研究表明人工智能与人类的合作胜过仅有人类或仅有人工智能代理的情况，并开发出了一种用户界面，使人类有效地协助人工智能代理。

Dec, 2023

增强人机协作的扩展现实技术：人为循环方法

自动化的崛起为制造过程的高效性提供了机会，但往往会损害灵活性，无法及时响应市场需求的变化和对定制化的需求。人机协作通过结合机器的强大和精确性以及人类的智慧和感知能力来解决这些挑战。本文概念化和提出了一个基于机器学习的自主机械臂的实施框架，该框架包括人机循环原则，并利用扩展现实（XR）促进人与机器之间的直观交流和编程。此外，概念框架预见到人类直接参与机器学习过程，从而实现更高的适应性和任务通用化。本文突出强调支持所提出框架的关键技术，强调全面发展数字生态系统的重要性。此外，我们回顾了扩展现实在人机协作中的现有实施方法，展示了多样的观点和方法论。讨论了挑战和未来展望，深入探讨了扩展现实在工业领域实现更自然的人机交互和融合的主要障碍和潜在研究方向。

Mar, 2024

实际人机协作强化学习

本研究通过一个协同迷宫游戏设计，用深度强化学习技术实现了人机共同协作。研究结果证明人机共同协作相互影响，在时间的推进下不断适应并建立起相应策略，这为人机智能的协作提供了可行的方案。

Mar, 2020

适用于快速从人类导师中学习的多才智能

通过引入 Policy Pool 和异步的非条件 policy 优化策略，本文提出了一种在机器人与人类之间合作中使用的人类向机器人知识迁移算法，在 Mini-Grid 环境中对复杂问题仅需要一次人类示范便可快速学习，展示了其非常高的效率和实用性。

Mar, 2022

HumanPlus: 人形机器人的人体投射与模仿

通过使用模拟训练和自我影子技术，本文介绍了一个全栈系统，使得机器人能够通过人类数据学习运动和自主技能。

Jun, 2024

走向长期自治：机器人学习的观点

本研究从机器人学习的角度，探讨服务机器人长期自治问题及其数据前提和部署方案。

Dec, 2022