学习无知、不一致智能体的偏好

AAAIDec, 2015

Learning the Preferences of Ignorant, Inconsistent Agents

Owain Evans, Andreas Stuhlmueller, Noah D. Goodman

TL;DR研究机器学习中先前观察到的人们的选择，作为贝叶斯反向规划的先验，建议了一种引入计划偏差和时序不一致性的算法，通过构造计划生成模型，分析了其对偏差和忠诚度的推断。人体实验表明，人们也会从系统性偏离最佳行为中解释选择，并考虑这些偏差。

Abstract

An important use of machine learning is to learn what people value. What posts or photos should a user be shown? Which jobs or activities would a person find rewarding? In each case, observations of people's past choices can inform our inferences about their likes and preferences. If w

machine learning preference inference bayesian inverse planning deviations generative models

发现论文，激发创造

偏好引导和逆强化学习

通过偏好评估，我们提出了 Bayesian 逆强化学习的一个方法，可以从观察到的信息中得出代理的偏好、策略和奖励序列的后验分布，并通过分析和实验结果展示与其他统计逆强化学习方法之间的关系。结果表明，即使观察到的代理策略不是最优的，我们也能够准确确定其偏好，并得出更好的策略。

Apr, 2011

不确定性建模

通过对哲学、心理学和经济学理论建立数学离散模型，结合社会选择和偏好建模技术进行数据分析，旨在更好地了解人们所做出决定时的犹豫行为，以优化人工智能系统的行为表现。

Dec, 2020

学习人类偏好以便推理奖励的可行性探讨

我们提出一种基于不可微分计划器的逆强化学习，用于推断从专家提供的演示中学习奖励函数，并与采用特定假设的数学模型相比，我们的方法可以得到更好的奖励推断，同时保持在数据驱动方法和已知人类偏差之间的平衡。

Jun, 2019

从行为推断动态信念：你认为自己要去哪里？

本文提出一种基于内部信念的模型，推断人类意图以更准确的模拟人类，并可以应用于共享自治框架和推断人类偏好等应用中。

May, 2018

利用高斯过程从偏好和选择中学习的教程

通过理解个体的偏好和选择方式，构建能够与其预期十分匹配的产品，并将经济学、决策理论原则融入学习过程中，本文提出了一种以高斯过程为基础的偏好学习模型的完整框架，并介绍了一些用于填补现有文献中空白的新颖基于高斯过程的模型。

Mar, 2024

多目标多智能体决策中的演示推理

本研究提出了一种算法，能够从优化或接近最优演示中推断出线性优先权重，并在三个环境中进行评估。经验证实，相对于基线算法，该算法在时间需求和推断偏好的准确性方面都有显著的改进。未来，我们计划在多智能体系统中评估该算法的有效性，其中一个智能体能够使用我们的偏好推断算法推断对手的偏好。

Apr, 2023

我们真的需要数据吗？

以人工智能和机器学习为基础，本文研究了预测后推断问题的统计挑战，包括预测结果与真实结果之间的关系、机器学习模型对训练数据的鲁棒性以及将预测的偏差和不确定性传播到最终推断过程中。同时与传统领域的相关研究进行对比，揭示了设计在经典和现代推断问题中的作用。

Jan, 2024

使机器人能够交流它们的目标

通过机器模拟对人类推导目标功能的学习过程，选择对人最具信息量的行为，以准确预测机器人在新情境下的行为，为此我们提出了两种候选的近似推断模型，并在自动驾驶领域中进行用户研究，结果表明，某些近似推断模型可以使机器人生成更好的行为示例，从而更好地使用户预测其行为，但我们还需要进一步研究人类从机器人行为示例中的推导过程。

Feb, 2017

未知环境下的概率逆向强化学习

我们考虑了在未知的随机马尔可夫环境或游戏中，从代理人的示范学习的问题。我们旨在估计代理人的偏好，以构建同一任务的改进策略。为了做到这一点，我们将已知 MDP 中逆强化学习的概率方法扩展到未知动态或对手的情况。我们通过导出演示者策略和效用的两个简化概率模型来实现这一点，为了易于处理，我们使用了最大后验估计而不是完整的贝叶斯推断。在先验分布相同的情况下，这结果是凸优化问题。我们发现所得到的算法与其他了解动态的逆强化学习方法相比具有很高的竞争力。

Aug, 2014

贝叶斯多任务逆向强化学习

本文将逆向强化学习问题推广到多个任务，通过引入一定数量的结构化先验，我们将问题形式化为统计偏好提取。我们展示了我们的框架不仅允许我们从多个专家中有效地学习，而且还可以有效地区分每个专家的目标。

Jun, 2011