为了更好的人机协作，向人类解释奖励函数

AAAIOct, 2021

为了更好的人机协作，向人类解释奖励函数

Explaining Reward Functions to Humans for Better Human-Robot Collaboration

Lindsay Sanneman, Julie Shah

TL;DR介绍奖励解释技术的信息模态，研究了多个不同领域中奖励解释技术的相对效能并提出了四个领域复杂性轴线。

Abstract

explainable ai techniques that describe agent reward functions can enhance human-robot collaboration in a variety of settings. One context where human understanding of agent reward functions is particularly benef

explainable ai human-robot collaboration value alignment reward explanation techniques experiment

发现论文，激发创造

交互自主学习偏好

研究人机交互中智能机器人的学习奖励功能从而完成任务，探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能，包括两两比较、评分、最佳选择等，并提出主动学习技术，以优化从用户反馈中获得的期望信息，进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。

Oct, 2022

奖励合理 (隐式) 选择：奖励学习的统一形式化

研究如何从人类的行为或反馈中学习奖励函数，并提出一种单一的形式化框架，将各种不同类型的行为诠释为人类所做出的奖励选择，这既可用于解读过去的工作，又能为今后的研究提供借鉴和启迪。

Feb, 2020

评估强化学习场景中机器人行动的类人解释

本文探讨了透明度逐渐成为自主智能系统的必要品质，提供了人性化的基于成功概率的解释方法，并通过用户调查证明该种解释对于非专业人士更易理解和接受。

Jul, 2022

从多元人类反馈中学习奖励函数：最优化整合演示和偏好

本文提出了一种从用户收集多源数据的框架，该框架结合了演示和偏好查询以学习奖励函数，可用于机器人模型中，并且在移动操作器 Fetch 上执行的模拟实验和用户研究验证了我们的方法的优越性和可用性。

Jun, 2020

解释学习得到的奖励函数与反事实轨迹

通过对比原始和反事实的部分轨迹及其各自接收的奖励，我们提出了反事实轨迹解释（CTEs）来解释强化学习中的奖励函数，证明了 CTEs 对代理人模型具有信息量，使其预测与未见轨迹上的奖励函数更加相似，并且在不同分布的示例中具有泛化能力，从而为解释学习的奖励函数提供了一种有效的方法。

Feb, 2024

感知奖励函数

该论文研究了使用感知奖励函数的方法，以提供视觉任务的描述，使代理能够从基于原始像素而不是内部参数的奖励中进行学习。

Aug, 2016

通过奖励建模实现可扩展的智能体协调方向研究

本文阐述了设计适用于真实世界应用强化学习的奖励函数的难度、代理对齐问题的产生原因、以及基于奖励建模解决代理对齐问题的高层研究方向，并探讨了在实现奖励建模时可能面临的关键挑战和解决这些挑战的具体方法以及建立信任的方式。

Nov, 2018

强化学习中奖励函数的信息性

设计具有信息量的奖励函数以加速学习代理的收敛，并通过提出一种新的奖励信息量准则来适应性地设计代理奖励。实验证明了提出的奖励信息量准则在自适应设计代理奖励方面的有效性。

Feb, 2024

解释自己！解释在人机交互中的影响

研究通过比较两个游戏机器人的表现来探究机器人决策解释对人类感知的影响，发现机器人提供解释并不能改变机器人的可信度、智能、好感度和安全性评级，但提供解释的机器人被认为更有生命力和人性化。这项研究表明，机器人决策解释具有提高人机交互及其各种效果的潜力，需要进行进一步评估。

Apr, 2022

内在和外在可解释性的整合：理解神经网络对于人机交互的相关性

阐释了可解释人工智能在协作、神经机器人学和人形机器人等方面的现状，并介绍了人形机器人平台 NICO 及其内在与外在解释如何促进高效的机器人行为。

Oct, 2020