RILI: 鲁棒地影响潜在意图

Mar, 2022

RILI: Robustly Influencing Latent Intent

Sagar Parekh, Soheil Habibian, Dylan P. Losey

TL;DR该研究探讨机器人与人类的互动，提出了一种基于机器学习的方法，能够训练机器人逐渐适应人体动态的变化，并使机器人与人类在协作过程中达到更好的效果。

Abstract

When robots interact with human partners, often these partners change their behavior in response to the robot. On the one hand this is challenging because the robot must learn to coordinate with a dynamic partner. But on the other hand -- if the robot understands these dynamics -- it can harness its own behavior, influence the human, and guide the team towar

robot-human interaction partner dynamics machine learning collaboration user study

发现论文，激发创造

学习潜在表示以共同适应人类

论文介绍了一种算法形式化的机器人与动态人类相互协调的方法，使用机器人的低级状态、行为和奖励，结合高级别的人类政策和政策动态来实现，该方法在博弈和建造任务中进行了实际人类协作实验，表明比基线方法更好地学习了与不完美、嘈杂、时变代理协调。

Dec, 2022

人类学习动态建模与影响

本文介绍了一种模拟人类学习为非线性动力学系统的新方法，以监督机器人如何影响人类内部模型的变化，并通过嵌入人类学习动态模型到机器人规划问题中来实现。我们提供了一个折衷方案，以牺牲所能代表的人类内部模型的复杂性为代价，使机器人能够学习这些内部模型的非线性动力学。在一系列模拟环境和面对面的用户研究中，我们评估了我们的推断和规划方法，表明机器人对人类学习的影响是可能的，并且可以在真实的人机交互中有所帮助。

Jan, 2023

稳定的多智能体交互影响力研究

该研究探讨如何通过学习其他机器人的策略，以及动态模型的帮助，定义一个无监督的稳定奖励来影响其他机器人的策略以实现稳定，并展示了其在自动驾驶、紧急通信和机器人操作等方面的有效性。

Oct, 2021

学习潜在表征以影响多智体交互

该论文提出了一种基于强化学习的框架，用于学习代理人策略的潜在表示，通过学习潜在的动态关系，以影响其他代理人，推动其向适合于协同适应的策略方向发展，该方法在多个模拟领域和现实世界的空气曲棍球比赛中表现优异。

Nov, 2020

学习人机交互的多模态潜在动力学

本文介绍一个从人与人互动学习到人机互动的方法，通过使用隐马尔可夫模型作为潜在空间先验，并结合变分自编码器来建模互动代理之间的联合分布。利用从人与人互动中学习到的互动动力学来学习人机互动，并将人类观测结果作为训练基础，从而预测更准确的机器人轨迹。进一步通过逆运动学调整生成的机器人动作，以确保与人之间的期望物理接近性，结合了关节空间学习的便利性和准确的任务空间可达性。在富含接触的互动中，我们利用 HMM 分割来调节机器人的刚度以实现柔顺的互动。通过用户评测，我们验证了所提方法在一个人形机器人上的有效性。尽管仅通过两个人的数据进行训练，我们的方法在不同人类之间表现出很好的泛化性能。实验结果表明，用户认为我们的方法更具人性化、及时性和准确性，并且较其他基准方法更具优势。

Nov, 2023

使用离线强化学习学习影响人类行为

本篇论文提出了一种离线强化学习方法，通过利用多样化的人机交互行为，在不需要在线训练或高保真模拟器的情况下，学习一些对人类行为产生积极影响的策略，从而提高人类在合作任务中的表现。该方法成功在 Overcooked 协作基准域中提高了人类的表现。

Mar, 2023

现实世界中基于内在动机的人机交互强化学习

本文提出了一种基于内在动机的强化学习框架，通过预测模型和动作条件获得内在动机驱动下的奖励，并通过与人的互动学习类似于人类的社交技能，结果表明该机器人不仅获得了人类般的社交技能，而且在测试数据集上做出了更符合人类的决策。

Apr, 2018

实际人机协作强化学习

本研究通过一个协同迷宫游戏设计，用深度强化学习技术实现了人机共同协作。研究结果证明人机共同协作相互影响，在时间的推进下不断适应并建立起相应策略，这为人机智能的协作提供了可行的方案。

Mar, 2020

基于观测学习的因果机器人通讯

介绍了如何应用心理学的学习行为洞见为机器人意图交流提供洞见，并通过从一个动作序列中选择性地解释因果动作的方式，使机器人更有效地传达其目的。

Mar, 2022

野外场景下人机模仿

提出了一种名为 WHIRL 的算法，该算法采取第三人称的视角从人类被动、非结构化的数据中提取出先验，并使用其初始化代理的策略，同时引入了有效的现实世界策略学习方案和探索方法，能在真实环境下成功地学习人类模仿机器人，并完成 20 种不同的操作任务。

Jul, 2022