潜在的发射增强透视视角(LEAPT)对人机交互的应用
在人形机器人中,我们引入了一种新的传播模型,该模型旨在使机器人直接从第三人称演示中学习。我们的模型能够通过转换两个视角之间的物体大小和旋转以及环境来学习和生成第一人称视角,从而充分利用易于产生的第三人称演示和易于模仿的第一人称演示的优势。该模型可以表示第一人称视角的 RGB 图像或计算关节值。在这项任务中,我们的方法明显优于其他图像到图像模型。
Apr, 2024
在机器人的交互感知中,使用预先训练的大型语言模型(LLMs)作为交互感知框架,并将其应用于决策问题以及规划多模态环境中的任务执行,这样可以通过感知来指导认知行为和高层次的决策规划,这种方法可以显著提高任务完成的准确性和效率。
Mar, 2023
通过仿真理论的视角引导框架 SimToM,在 Theory of Mind (ToM) 的背景下,改进了大型语言模型(LLMs)的推理能力,无需额外训练和大量提示微调,从而实现了对 ToM 能力的显著提升。
Nov, 2023
本文提出了一种基于行为感知的具有身体的学习框架,该框架通过结合强化学习和反向动力学预测目标来将行动信息纳入表示学习中,主动探索复杂的 3D 环境,从而学习可推广的任务不可知表示,并收集下游训练数据,以目标检测和语义分割任务为例,证明了该方法在视觉模型基准测试中的优势表现,并表明通过在更贴近环境和任务的实时数据上进行训练,我们的方法比在 ImageNet 等固定数据集上预训练的模型更具有鲁棒性。
Jun, 2023
该研究旨在探索将机器人与人类环境进行自然语言交互以实现无缝操作的关键挑战,通过使用多变压器模型和 BART 语言模型,我们在执行对话历史任务上取得了显著的改进,并提出了一种新的任务扩展方法通过预测游戏计划来促进任务解决。
Nov, 2023
该论文提出了一种基于强化学习的框架,用于学习代理人策略的潜在表示,通过学习潜在的动态关系,以影响其他代理人,推动其向适合于协同适应的策略方向发展,该方法在多个模拟领域和现实世界的空气曲棍球比赛中表现优异。
Nov, 2020
本文提出了一种基于数据驱动的框架 EMPATHIC,该框架可以从人类面部表情等隐式反馈中学习如何优化机器人执行任务的表现,其中包括使用深度神经网络将隐式反馈转化为任务统计数据以及应用该框架在机器人操纵路径评估等多个领域的实例。
Sep, 2020
通过研究大型语言模型在人机交互中的应用,本文探讨了理解机器生成行为的能力,特别是在承认他人心理状态方面,发现大型语言模型缺乏对无关紧要或微小变化的不变性。
Jan, 2024
该研究基于情境评估,提出了一种新颖的解决方案,可以在人机团队合作中帮助机器人预测和模拟人类决策,并通过沟通协调达到信念一致,提高问题解决效率和鲁棒性。
Oct, 2022