奖励合理 (隐式) 选择：奖励学习的统一形式化

Feb, 2020

奖励合理 (隐式) 选择：奖励学习的统一形式化

Reward-rational (implicit) choice: A unifying formalism for reward learning

Hong Jun Jeon, Smitha Milli, Anca D. Dragan

TL;DR研究如何从人类的行为或反馈中学习奖励函数，并提出一种单一的形式化框架，将各种不同类型的行为诠释为人类所做出的奖励选择，这既可用于解读过去的工作，又能为今后的研究提供借鉴和启迪。

Abstract

It is often difficult to hand-specify what the correct reward function is for a task, so researchers have instead aimed to learn reward functions from human behavior or feedback. The types of behavior interpreted as evidence of the →

reward function learning human behavior robotics formalism

发现论文，激发创造

交互自主学习偏好

研究人机交互中智能机器人的学习奖励功能从而完成任务，探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能，包括两两比较、评分、最佳选择等，并提出主动学习技术，以优化从用户反馈中获得的期望信息，进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。

Oct, 2022

从多元人类反馈中学习奖励函数：最优化整合演示和偏好

本文提出了一种从用户收集多源数据的框架，该框架结合了演示和偏好查询以学习奖励函数，可用于机器人模型中，并且在移动操作器 Fetch 上执行的模拟实验和用户研究验证了我们的方法的优越性和可用性。

Jun, 2020

为了更好的人机协作，向人类解释奖励函数

介绍奖励解释技术的信息模态，研究了多个不同领域中奖励解释技术的相对效能并提出了四个领域复杂性轴线。

Oct, 2021

感知奖励函数

该论文研究了使用感知奖励函数的方法，以提供视觉任务的描述，使代理能够从基于原始像素而不是内部参数的奖励中进行学习。

Aug, 2016

论学习奖励函数的脆弱性

本文研究了基于奖励学习的优化过程中，由于训练数据集的变化或奖励模型的设计问题导致重新学习变得困难的问题，强调了需要在文献中加入更多的基于重新训练的评估方法。

Jan, 2023

无监督感知奖励用于模仿学习

利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数，以便在真实世界环境中使用强化学习智能体执行任务。

Dec, 2016

辩证奖励学习：关于人类喜好的推理

论文提出一种新的脑神经符号框架 —— 论证奖赏学习，它将基于偏好的论证与现有的从人类反馈中进行强化学习的方法相结合，通过泛化人类偏好、减少用户负担和提高奖励模型的稳健性等方面提高了工作效率。

Sep, 2022

特征扩张奖励学习：重新思考人类输入

本文提出了一种人与机器人交互的新方式，通过以人类指导机器人从高表达特征的状态到不表达该特征的状态的方法来学习机器人掌握的特征，然后将其集成到奖励函数中，大大降低了样本复杂度并提高了奖励的泛化性能。

Jun, 2020

奖赏推断中的选择集错误规范化

本篇研究通过引入选择集调整分类，探讨机器人从人类反馈中推断出奖励函数时选择集被错误设定的后果对性能的影响，并发现部分错误设定并不影响结果，但在某些情况下，失配会极大地损害机器人的推断结果，因此希望我们的结果能够为实际的奖励推理带来更好的预测和响应。

Jan, 2021

建模人类理性水平对从多种反馈类型中学习奖励的影响

本文提出将理性系数与每种反馈类型的真实数据相结合，而不是假定默认值，对奖励学习有显着的正面影响，并发现高估人类理性可能对奖励学习的准确性和遗憾产生严重影响。在多种人类反馈和模拟实验中实现，这表明了在主体积极从多种人类反馈中学习时，关注假定的人类理性水平的重要性和优势。

Aug, 2022