自主系统从人类互动中的学习周期

AAAIAug, 2018

自主系统从人类互动中的学习周期

Cycle-of-Learning for Autonomous Systems from Human Interaction

Nicholas R. Waytowich, Vinicius G. Goecks, Vernon J. Lawhern

TL;DR探讨如何训练端到端的增强学习算法，提供了分类人类干预模式的模型，结合了不同的人机交互方式，定义了不同模式间的切换标准。

Abstract

We discuss different types of human-robot interaction paradigms in the context of training end-to-end reinforcement learning algorithms. We provide a taxonomy to categorize the types of human interaction and pres

human-robot interaction end-to-end reinforcement learning cycle-of-learning framework autonomous systems switching criteria

发现论文，激发创造

高效结合人类演示和干预以实时安全训练自主系统

通过结合不同形式的人机交互，本研究利用人类示范和干预学习来安全地实时训练自主系统，从而加快训练速度并提高性能

Oct, 2018

学习感知交互式自主安全性

为了确保机器人等自主车辆的广泛部署，本文提出了一种新的闭环范式用于综合安全控制策略，明确考虑系统在可能的未来情景下的演变不确定性，通过物理动力学和机器人的学习算法共同推理，利用对抗深度强化学习进行放大，展示了该框架能够处理贝叶斯信念传播和大规模预训练神经轨迹预测模型引起的隐式学习。

Sep, 2023

人类用户如何在不断的交互中教授连续学习机器人？

本文研究了人类教授机器人学习的方式及学习机器人需要如何快速学习新信息，在理解每个用户的教学风格方面个性化改进。对 200 个会话进行研究，结果表明教学者的风格存在显著变异，需要进行个性化的适应。同时，在实际运用中，常规设备测试机器学习无法代替真实用户的操作方法。

Jun, 2023

通过人机交互进行连续学习 —— 重复互动中人类对连续学习机器人的认知

本论文研究了如何将基于连续学习模型的目标识别系统与移动机器人 Fetch 结合起来，以便使机器人能够在与人类用户的多个交互中继续学习。通过与 60 名参与者进行的实验，作者发现，如果机器人忘记了之前学过的目标，参与者对于连续学习机器人的信任、能力和可用性的感知将会明显降低。然而，进行 2-3 次教学和测试任务的任务负荷并不随会话数的增加而增加。此外，本研究发现，目前的连续学习模型在机器人与人类参与者交互时的可靠性较低。

May, 2023

异步人类反馈下的自主机器人强化学习

实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战，但本研究描述了一个实际的强化学习系统，通过在真实环境中进行训练，并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下，通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明，该系统能够有效地学习行为。

Oct, 2023

最小化人力成本的演示学习框架

本文探讨了机器人学习中的共享自治问题，提出了一种基于多臂赌博机算法的控制器选择方法，并通过模拟和实现任务验证了该方法降低了人类成本。

Jun, 2023

人机协作任务的高效模型学习

该研究提出了一个利用无人干预的关节行动示范学习人类用户模型的框架，以便机器人能够计算出一项与人类的合作任务相适应的鲁棒策略。该框架利用无监督学习算法将示范动作序列聚集到不同的人类类型中，并使用逆强化学习算法学习代表每种类型的奖励函数。最后，该方法得到了验证，并在实验室中演示了同一个人类与小型工业机器人配合完成任务的可能性。

May, 2014

使用远程遥操作的人在循环中模仿学习

本文介绍使用干预性策略学习的方法来解决机器人操作任务中必须经过精确定序的地方的问题，提出一种 6 自由度机器人操作任务的数据采集系统，并开发了一个简单而有效的算法来收集新数据以遍历通过这些难点，使用干预策略学习的代理在机器人的线路穿线任务和制造咖啡任务中的表现优于其他多种基线算法。

Dec, 2020

人工智能与人类的融合决策系统学习范式

每天我们越来越依赖于机器学习模型来自动化和支持高风险任务和决策。这篇论文提出了混合决策系统的分类法，提供了一个概念和技术框架，以理解当前计算机科学文献中的人机交互模型。

Feb, 2024

自适应的以用户为中心的神经符号学习对自主系统进行多模态交互

通过深度学习使自主系统能够在感知的亚符号方式下逐渐理解对象及其环境，执行对象检测、传感器数据融合和语言理解任务。为了实现强大的人工智能，我们需要考虑人类提供的显式教学和通过观察人类行为获得的隐式教学，同时设计多模态输入和输出能力的系统以支持隐式和显式交互模型。我们提出了几个假设和设计指南，并通过相关工作的一个用例来实现这个目标。

Sep, 2023