机器人和人类表示的对齐
研究了如何将在一个环境中学到的知识传递到另一个环境中的关键问题,并通过学习人类期望机器人执行哪些任务的中间表示方法,来提高机器人学习效率,从而为人类与机器人的互动打下基础。
May, 2022
通过人类反馈,提出了一种用于解决视觉表征对齐问题和视觉奖励学习问题的方法:表示对齐的基于偏好的学习(RAPL)。在 X-MAGICAL 和机器人操纵的实验中,RAPL 的奖励 consistently 生成高样本效率的优选机器人行为,并在视觉表征来自与机器人不同的实体的情况下显示出强大的零样本泛化能力。
Oct, 2023
构建与人类价值和目标相一致的 AI 系统,防止造成伤害或违反社会可接受行为的标准是一个重要课题,本研究通过研究伦理学作为价值一方面并训练多个 ML 代理,研究其与人类的代表性一致程度与学习最具道德行为的性能之间的关系。
Dec, 2023
通过信息理论分析和计算机视觉模型的实验,我们发现 AI 系统的世界表示与人类的相似度呈现 U 形关系,并表明高度相似的模型在少量数据、对抗攻击和领域转换方面更具鲁棒性和泛化能力,表明人类对齐通常是模型充分利用有限数据、鲁棒性和良好泛化的足够但不必要的条件。
Jan, 2023
本文在三个机器人任务中系统评估了多种常见的学习和手工工程化表示方法,并从三个方面对每种表现方法进行评估,即维度,可观测性和分离度,发现在输入代理或作为辅助任务的情况下,可以显著提高性能,并挑战了什么是控制机器人 ' 好' 表示的见解。
Nov, 2020
从人们定义的相似度中学习表示使机器人能够识别和隔离人们实际关心和使用的因果特征,从而更好地学习他们的喜好和目标。在模拟和用户研究中,我们证明通过这种相似度查询学习可以比自我监督和任务输入等传统的表示学习方法得到更具有一般性的表示。
Jan, 2023
通过机器模拟对人类推导目标功能的学习过程,选择对人最具信息量的行为,以准确预测机器人在新情境下的行为,为此我们提出了两种候选的近似推断模型,并在自动驾驶领域中进行用户研究,结果表明,某些近似推断模型可以使机器人生成更好的行为示例,从而更好地使用户预测其行为,但我们还需要进一步研究人类从机器人行为示例中的推导过程。
Feb, 2017
本研究调查神经网络表示与人类认知表示之间对齐的因素,发现模型规模和架构对齐性没有实质性影响,而训练数据集和目标函数对齐性有更大的影响。研究发现,神经网络表示的线性转换有助于提高与人类相似性判断的一致性,但规模和多样性更大的数据集训练的模型也不能满足人类认知表示的需求。
Nov, 2022
通过模仿学习,我们能够快速理解一个新任务,通过演示,我们可以直接获得哪些动作需要执行以及它们的目标的知识。本文介绍了一种新的模仿学习方法,解决了机器人模仿人类所面临的视角变化和身体模式等挑战。我们的方法可以利用单个人类演示来抽象展示任务的信息,并利用该信息进行泛化和复制。我们通过两种最先进的方法进行了新的集成:扩散式动作分割模型用于抽象演示的时间信息,以及开放词汇对象检测器用于空间信息。此外,我们通过符号推理来改进抽象的信息,并利用逆向运动学创建行动计划,以使机器人能够模仿演示的动作。
Jan, 2024