研究人机交互中智能机器人的学习奖励功能从而完成任务,探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能,包括两两比较、评分、最佳选择等,并提出主动学习技术,以优化从用户反馈中获得的期望信息,进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。
Oct, 2022
本文提出了一种从用户收集多源数据的框架,该框架结合了演示和偏好查询以学习奖励函数,可用于机器人模型中,并且在移动操作器 Fetch 上执行的模拟实验和用户研究验证了我们的方法的优越性和可用性。
Jun, 2020
介绍奖励解释技术的信息模态,研究了多个不同领域中奖励解释技术的相对效能并提出了四个领域复杂性轴线。
Oct, 2021
该论文研究了使用感知奖励函数的方法,以提供视觉任务的描述,使代理能够从基于原始像素而不是内部参数的奖励中进行学习。
Aug, 2016
本文研究了基于奖励学习的优化过程中,由于训练数据集的变化或奖励模型的设计问题导致重新学习变得困难的问题,强调了需要在文献中加入更多的基于重新训练的评估方法。
Jan, 2023
利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数,以便在真实世界环境中使用强化学习智能体执行任务。
Dec, 2016
论文提出一种新的脑神经符号框架 —— 论证奖赏学习,它将基于偏好的论证与现有的从人类反馈中进行强化学习的方法相结合,通过泛化人类偏好、减少用户负担和提高奖励模型的稳健性等方面提高了工作效率。
Sep, 2022
本文提出了一种人与机器人交互的新方式,通过以人类指导机器人从高表达特征的状态到不表达该特征的状态的方法来学习机器人掌握的特征,然后将其集成到奖励函数中,大大降低了样本复杂度并提高了奖励的泛化性能。
本篇研究通过引入选择集调整分类,探讨机器人从人类反馈中推断出奖励函数时选择集被错误设定的后果对性能的影响,并发现部分错误设定并不影响结果,但在某些情况下,失配会极大地损害机器人的推断结果,因此希望我们的结果能够为实际的奖励推理带来更好的预测和响应。
Jan, 2021
本文提出将理性系数与每种反馈类型的真实数据相结合,而不是假定默认值,对奖励学习有显着的正面影响,并发现高估人类理性可能对奖励学习的准确性和遗憾产生严重影响。在多种人类反馈和模拟实验中实现,这表明了在主体积极从多种人类反馈中学习时,关注假定的人类理性水平的重要性和优势。
Aug, 2022