多目标多智能体决策中的演示推理

Apr, 2023

多目标多智能体决策中的演示推理

Preference Inference from Demonstration in Multi-objective Multi-agent Decision Making

Junlin Lu

TL;DR本研究提出了一种算法，能够从优化或接近最优演示中推断出线性优先权重，并在三个环境中进行评估。经验证实，相对于基线算法，该算法在时间需求和推断偏好的准确性方面都有显著的改进。未来，我们计划在多智能体系统中评估该算法的有效性，其中一个智能体能够使用我们的偏好推断算法推断对手的偏好。

Abstract

It is challenging to quantify numerical preferences for different objectives in a multi-objective decision-making problem. However, the demonstrations of a user are often accessible. We propose an →

multi-objective decision-making problem linear preference weights demonstrations algorithm inferred preferences

发现论文，激发创造

多目标强化学习中基于动态权重的演示偏好推断方法

该研究提出了一种基于动态权重的偏好推断算法，通过观察环境中的行为轨迹，能够推断多目标决策问题中代理人的偏好，实验结果表明其相较于现有方法能够显著提高推断效率和准确性。

Apr, 2023

多目标住宅能源管理中从示范推断偏好

通过应用基于演示的偏好推断方法在多目标住宅能源消耗环境中，采用动态权重的推断方法实现了精确的基于演示的偏好推断，提高了能源管理中多目标强化学习 (MORL) 的可用性和效果，为真实世界的应用开辟了新的可能性。

Jan, 2024

整合人类演示和偏好的学习奖励函数

该研究提出了 DemPref 框架，结合演示和偏好查询来学习奖励函数，其对标准偏好学习方法具有更高的效率和更好的性能。

Jun, 2019

多目标策略优化的分布式视角

本文提出了一种用于多目标强化学习的新算法，可以以一种无量纲的方式设置目标的偏好，并且通过学习行动分布和拟合参数策略来在高维实际机器人任务及模拟任务中展示了其有效性，从而找到一组非支配解空间。

May, 2020

学习无知、不一致智能体的偏好

研究机器学习中先前观察到的人们的选择，作为贝叶斯反向规划的先验，建议了一种引入计划偏差和时序不一致性的算法，通过构造计划生成模型，分析了其对偏差和忠诚度的推断。人体实验表明，人们也会从系统性偏离最佳行为中解释选择，并考虑这些偏差。

Dec, 2015

通过反向多目标优化推断参数

本文提出了一种数据驱动的逆优化模型，用于从具有噪声观测数据的决策中推断多目标决策问题的参数，并能够确定决策制定者对多个准则的偏好分布。该模型使用更复杂的逆优化公式，包括数学分析和算法，可估计关键参数、解耦和降噪的最优决策，并保证统计显著性。数值实验证实了该模型的有效性和算法的计算效率。

Aug, 2018

有效地从显性偏好中学习

本文从学习的角度考虑了揭示偏好问题。对于具有线性评估函数以及具有线性可分、具有有界二阶导数的评估函数的代理，我们提供了具有多项式样本复杂度的有效算法。

Nov, 2012

从偏好中推断按字典序排序的奖励

本研究提出了一种基于多目标奖励的代理人观察到的喜好的方法，在医疗保健中应用示例，包括癌症治疗和器官移植，通过字典序排序的奖励，学习到更好的决策者偏好的理解，帮助改善政策并在强化学习中使用。

Feb, 2022

偏好引导和逆强化学习

通过偏好评估，我们提出了 Bayesian 逆强化学习的一个方法，可以从观察到的信息中得出代理的偏好、策略和奖励序列的后验分布，并通过分析和实验结果展示与其他统计逆强化学习方法之间的关系。结果表明，即使观察到的代理策略不是最优的，我们也能够准确确定其偏好，并得出更好的策略。

Apr, 2011

一对多：多用户同时度量和偏好学习

本文研究了从一群回答者中同时进行偏好和度量学习的问题，旨在捕捉单个用户的偏好和相似度度量标准，同时享有样本成本分摊。通过研究连续响应设置和噪声二进制测量，证明了该模型足够灵活，能够有效地满足不同需求，并提高了学习的样本复杂度，最终在模拟数据和真实数据中进行了实际效果验证。

Jul, 2022