直白还是教育性的人类？分析客观学习中人类模型误设

Mar, 2019

直白还是教育性的人类？分析客观学习中人类模型误设

Literal or Pedagogic Human? Analyzing Human Model Misspecification in Objective Learning

Smitha Milli, Anca D. Dragan

TL;DR研究探讨如何从人类行为中学习目标来指导自主系统的设计，在将目标学习转化为机器人与人之间的博弈时，针对人的行为方式（直接或引导性）作了讨论，并通过实验验证了直接解释更能应对目标设定的误判。

Abstract

It is incredibly easy for a system designer to misspecify the objective for an autonomous system ("robot''), thus motivating the desire to have the robot learn the objective from human behavior instead. Recent work has suggested that people have an interest in the robot performing well

发现论文，激发创造

使机器人能够交流它们的目标

通过机器模拟对人类推导目标功能的学习过程，选择对人最具信息量的行为，以准确预测机器人在新情境下的行为，为此我们提出了两种候选的近似推断模型，并在自动驾驶领域中进行用户研究，结果表明，某些近似推断模型可以使机器人生成更好的行为示例，从而更好地使用户预测其行为，但我们还需要进一步研究人类从机器人行为示例中的推导过程。

Feb, 2017

实用-教育价值取向对齐

智能系统与人的目标保持一致是价值对齐问题，我们提出一种基于多智能体决策理论和人类认知数学模型相结合的协作逆强化学习解决方案，该方案是价值对齐的首个基于经验证的认知模型的形式分析。

Jul, 2017

在错误规范的目标空间下的学习

本文旨在避免机器人在执行任务过程中，因假定集不足而根据人类的体感调整自己的目标。我们提出了一个实时推理的方案，对人类指导的关注度进行量化，从而在物理人-机交互的场景下，让机器人保守地学习。实验表明，我们的方法在7DoF机械臂的用户研究中有效防止了意外的学习。

Oct, 2018

人机交互中模型学习的效用

本文探讨了在机器人学中，构建世界显式模型和直接学习策略两种不同的方式，以及在人机交互中如何应用心理理论对机器人对人的建模对性能的影响，同时也考虑了理论假设不准确时的影响。

Jan, 2019

奖赏推断中的选择集错误规范化

本篇研究通过引入选择集调整分类，探讨机器人从人类反馈中推断出奖励函数时选择集被错误设定的后果对性能的影响，并发现部分错误设定并不影响结果，但在某些情况下，失配会极大地损害机器人的推断结果，因此希望我们的结果能够为实际的奖励推理带来更好的预测和响应。

Jan, 2021

通过物理交互实现沟通：从人类校正中在线学习机器人目标

本论文旨在提出了一种动态系统的人机物理互动框架，介绍了如何在实时响应中学习人类意图，优化任务，并提高用户满意度。

Jul, 2021

评估强化学习场景中机器人行动的类人解释

本文探讨了透明度逐渐成为自主智能系统的必要品质，提供了人性化的基于成功概率的解释方法，并通过用户调查证明该种解释对于非专业人士更易理解和接受。

Jul, 2022

克服语言引导目标条件强化学习中的指代歧义

通过运用认知科学中的教学法和实用主义解决自然语言中的指称歧义，提高了机器人学习者在模拟机器人任务（堆叠）中的样本效率。

Sep, 2022

高阶认知模型在主动学习中的作用

建立能够有效与人类协作的机器一直是人工智能领域的长期目标。在存在不确定性的情况下，实现最佳合作通常需要人类和人工智能代理模拟彼此的行为，并利用这些模型推断潜在目标、信念或意图，这可能涉及多个层次的递归。我们提倡一种新的主动学习范式，利用人类作为主动数据源，同时考虑到他们的更高级别的能动性。此外，我们提供了一个使用高阶认知模型进行主动学习的实际示例。伴随着一个计算研究，突出了这个模型产生的独特行为。

Jan, 2024

机器人错误对人类教学动态的影响

本研究探讨了人类教学动态中一个被忽视的问题：机器人错误。在用户研究中发现，机器人存在错误时，教师在反馈的细度、丰富性以及教学时间上都会有所不同，尤其是在教学行为上表现出的适应性。此研究对优化互动学习界面和算法有重要意义，提升用户体验与机器人学习效果。

Sep, 2024