从偏好中推断按字典序排序的奖励

AAAIFeb, 2022

从偏好中推断按字典序排序的奖励

Inferring Lexicographically-Ordered Rewards from Preferences

Alihan Hüyük, William R. Zame, Mihaela van der Schaar

TL;DR本研究提出了一种基于多目标奖励的代理人观察到的喜好的方法，在医疗保健中应用示例，包括癌症治疗和器官移植，通过字典序排序的奖励，学习到更好的决策者偏好的理解，帮助改善政策并在强化学习中使用。

Abstract

Modeling the preferences of agents over a set of alternatives is a principal concern in many areas. The dominant approach has been to find a single reward/utility function with the property that alternatives yielding higher rewards are preferred over alternatives yielding lower rewards

multi-objective reinforcement learning preferences lexicographically healthcare

发现论文，激发创造

走向可协商的强化学习：在帕累托最优顺序决策中转移优先级

本文研究多目标强化学习算法在博弈中不同信念玩家的目标问题，提出了一种策略表述方式，利用递归形式来得出 Pareto 最优策略的特征，其中包括机器学习会利用玩家自身的信念来评估策略效果，并根据信念和机器输入条件的贴合程度，适当调整对每个玩家效用的相对优先级。

Jan, 2017

一种用于基于偏好奖励学习的泛化获取函数

优化查询方法在学习奖励函数上的表现优于信息增益方法。

Mar, 2024

使用层次奖励函数指定行为偏好

考虑在任务中以达到期望状态和避免不良状态的形式下，建议采用严格偏序的政策空间、环境独立的层次化奖励结构以及 Pareto 最优性的奖励函数设计，经实验证明其具有期望行为和快速学习的能力。

Dec, 2022

偏好引导和逆强化学习

通过偏好评估，我们提出了 Bayesian 逆强化学习的一个方法，可以从观察到的信息中得出代理的偏好、策略和奖励序列的后验分布，并通过分析和实验结果展示与其他统计逆强化学习方法之间的关系。结果表明，即使观察到的代理策略不是最优的，我们也能够准确确定其偏好，并得出更好的策略。

Apr, 2011

多目标多智能体决策中的演示推理

本研究提出了一种算法，能够从优化或接近最优演示中推断出线性优先权重，并在三个环境中进行评估。经验证实，相对于基线算法，该算法在时间需求和推断偏好的准确性方面都有显著的改进。未来，我们计划在多智能体系统中评估该算法的有效性，其中一个智能体能够使用我们的偏好推断算法推断对手的偏好。

Apr, 2023

多目标策略优化的分布式视角

本文提出了一种用于多目标强化学习的新算法，可以以一种无量纲的方式设置目标的偏好，并且通过学习行动分布和拟合参数策略来在高维实际机器人任务及模拟任务中展示了其有效性，从而找到一组非支配解空间。

May, 2020

AI 对齐的公理

基于社会选择理论，在强化学习中的人类反馈背景下，通过人类进行的成对比较推导出奖励函数，我们提出了一种具有强公理保证的学习奖励函数的创新规则，利用线性社会选择的新范式限制了可行规则空间。

May, 2024

多目标强化学习和策略适应的广义算法

提出了一种基于广义 Bellman 方程的多目标强化学习算法，该算法可通过极少量的样本快速适应新任务并生成最优策略。

Aug, 2019

基于效用的强化学习：统一单目标与多目标强化学习

通过引入基于效用的范式，将多目标强化学习的研究扩展到单目标强化学习领域，探讨了多策略学习、风险感知强化学习、折扣率以及安全强化学习等方面带来的潜在益处，并研究了采用基于效用的方法所带来的算法性能影响。

Feb, 2024

通过奖励函数优化进行行为对齐

通过使用双层目标的新框架，将辅助奖励与环境的主要奖励相结合，我们提供了一种集成设计者指定的启发式方法的鲁棒且有原则的方式，以解决现有方法的主要缺点，即使给出不对齐或指定不良的辅助奖励函数，也能始终导致高性能解决方案。

Oct, 2023