RILI: 鲁棒地影响潜在意图
论文介绍了一种算法形式化的机器人与动态人类相互协调的方法,使用机器人的低级状态、行为和奖励,结合高级别的人类政策和政策动态来实现,该方法在博弈和建造任务中进行了实际人类协作实验,表明比基线方法更好地学习了与不完美、嘈杂、时变代理协调。
Dec, 2022
本文介绍了一种模拟人类学习为非线性动力学系统的新方法,以监督机器人如何影响人类内部模型的变化,并通过嵌入人类学习动态模型到机器人规划问题中来实现。我们提供了一个折衷方案,以牺牲所能代表的人类内部模型的复杂性为代价,使机器人能够学习这些内部模型的非线性动力学。在一系列模拟环境和面对面的用户研究中,我们评估了我们的推断和规划方法,表明机器人对人类学习的影响是可能的,并且可以在真实的人机交互中有所帮助。
Jan, 2023
该研究探讨如何通过学习其他机器人的策略,以及动态模型的帮助,定义一个无监督的稳定奖励来影响其他机器人的策略以实现稳定,并展示了其在自动驾驶、紧急通信和机器人操作等方面的有效性。
Oct, 2021
该论文提出了一种基于强化学习的框架,用于学习代理人策略的潜在表示,通过学习潜在的动态关系,以影响其他代理人,推动其向适合于协同适应的策略方向发展,该方法在多个模拟领域和现实世界的空气曲棍球比赛中表现优异。
Nov, 2020
本文介绍一个从人与人互动学习到人机互动的方法,通过使用隐马尔可夫模型作为潜在空间先验,并结合变分自编码器来建模互动代理之间的联合分布。利用从人与人互动中学习到的互动动力学来学习人机互动,并将人类观测结果作为训练基础,从而预测更准确的机器人轨迹。进一步通过逆运动学调整生成的机器人动作,以确保与人之间的期望物理接近性,结合了关节空间学习的便利性和准确的任务空间可达性。在富含接触的互动中,我们利用 HMM 分割来调节机器人的刚度以实现柔顺的互动。通过用户评测,我们验证了所提方法在一个人形机器人上的有效性。尽管仅通过两个人的数据进行训练,我们的方法在不同人类之间表现出很好的泛化性能。实验结果表明,用户认为我们的方法更具人性化、及时性和准确性,并且较其他基准方法更具优势。
Nov, 2023
本篇论文提出了一种离线强化学习方法,通过利用多样化的人机交互行为,在不需要在线训练或高保真模拟器的情况下,学习一些对人类行为产生积极影响的策略,从而提高人类在合作任务中的表现。该方法成功在 Overcooked 协作基准域中提高了人类的表现。
Mar, 2023
本文提出了一种基于内在动机的强化学习框架,通过预测模型和动作条件获得内在动机驱动下的奖励,并通过与人的互动学习类似于人类的社交技能,结果表明该机器人不仅获得了人类般的社交技能,而且在测试数据集上做出了更符合人类的决策。
Apr, 2018
本研究通过一个协同迷宫游戏设计,用深度强化学习技术实现了人机共同协作。研究结果证明人机共同协作相互影响,在时间的推进下不断适应并建立起相应策略,这为人机智能的协作提供了可行的方案。
Mar, 2020
提出了一种名为 WHIRL 的算法,该算法采取第三人称的视角从人类被动、非结构化的数据中提取出先验,并使用其初始化代理的策略,同时引入了有效的现实世界策略学习方案和探索方法,能在真实环境下成功地学习人类模仿机器人,并完成 20 种不同的操作任务。
Jul, 2022