研究人机交互中智能机器人的学习奖励功能从而完成任务,探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能,包括两两比较、评分、最佳选择等,并提出主动学习技术,以优化从用户反馈中获得的期望信息,进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。
Oct, 2022
研究如何从人类的行为或反馈中学习奖励函数,并提出一种单一的形式化框架,将各种不同类型的行为诠释为人类所做出的奖励选择,这既可用于解读过去的工作,又能为今后的研究提供借鉴和启迪。
Feb, 2020
本文探讨了透明度逐渐成为自主智能系统的必要品质,提供了人性化的基于成功概率的解释方法,并通过用户调查证明该种解释对于非专业人士更易理解和接受。
Jul, 2022
本文提出了一种从用户收集多源数据的框架,该框架结合了演示和偏好查询以学习奖励函数,可用于机器人模型中,并且在移动操作器 Fetch 上执行的模拟实验和用户研究验证了我们的方法的优越性和可用性。
Jun, 2020
通过对比原始和反事实的部分轨迹及其各自接收的奖励,我们提出了反事实轨迹解释(CTEs)来解释强化学习中的奖励函数,证明了 CTEs 对代理人模型具有信息量,使其预测与未见轨迹上的奖励函数更加相似,并且在不同分布的示例中具有泛化能力,从而为解释学习的奖励函数提供了一种有效的方法。
Feb, 2024
该论文研究了使用感知奖励函数的方法,以提供视觉任务的描述,使代理能够从基于原始像素而不是内部参数的奖励中进行学习。
Aug, 2016
本文阐述了设计适用于真实世界应用强化学习的奖励函数的难度、代理对齐问题的产生原因、以及基于奖励建模解决代理对齐问题的高层研究方向,并探讨了在实现奖励建模时可能面临的关键挑战和解决这些挑战的具体方法以及建立信任的方式。
Nov, 2018
设计具有信息量的奖励函数以加速学习代理的收敛,并通过提出一种新的奖励信息量准则来适应性地设计代理奖励。实验证明了提出的奖励信息量准则在自适应设计代理奖励方面的有效性。
研究通过比较两个游戏机器人的表现来探究机器人决策解释对人类感知的影响,发现机器人提供解释并不能改变机器人的可信度、智能、好感度和安全性评级,但提供解释的机器人被认为更有生命力和人性化。这项研究表明,机器人决策解释具有提高人机交互及其各种效果的潜力,需要进行进一步评估。
Apr, 2022
阐释了可解释人工智能在协作、神经机器人学和人形机器人等方面的现状,并介绍了人形机器人平台 NICO 及其内在与外在解释如何促进高效的机器人行为。
Oct, 2020