有效地从显性偏好中学习

Nov, 2012

Efficiently Learning from Revealed Preference

Morteza Zadimoghaddam, Aaron Roth

TL;DR本文从学习的角度考虑了揭示偏好问题。对于具有线性评估函数以及具有线性可分、具有有界二阶导数的评估函数的代理，我们提供了具有多项式样本复杂度的有效算法。

Abstract

In this paper, we consider the revealed preferences problem from a learning perspective. Every day, a price vector and a budget is drawn from an unknown distribution, and a rational agent buys his most preferred bundle according to some unknown →

revealed preferences learning perspective unknown distribution utility function sample-complexity

发现论文，激发创造

从显性偏好中学习经济参数

本文探讨了如何从单调偏好数据中学习效用函数，提供了用于多种重要类别的样本复杂度保证和有效算法，并使用最近多类学习的进展和有关线性价格模型的紧密联系，提出了一种解决线性效用函数学习问题的高效算法。(Sample complexity guarantees and efficient algorithms are provided for learning utility function from revealed preference data, and a computationally efficient algorithm with tight sample complexity guarantees is proposed for learning linear utility functions under a linear price model).

Jul, 2014

基于显式偏好的在线学习和利润最大化

本文研究在在线学习中从揭示的偏好中学习的问题，提出了有效的算法用于商家的价格优化，通过强假设商品收益函数的形式，实现了揭示偏好问题的高效算法，并实现了学习和盈利最大化。

Jul, 2014

从理性行为学习：预测未知线性规划的解

研究预测线性规划的解决方案的问题，并在两个设置中提供错误边界学习算法：第一种情况下，学习者知道线性规划的目标，但未知一组约束条件；第二种情况下，学习者不知道线性规划的目标，但约束条件是已知的。

Jun, 2015

来自显式偏好的战略分类

研究在线线性分类问题，应对操纵特征的策略代理的对抗性选择和他们操纵向量的揭示偏好，提供一个计算有效的学习算法，获得减小的 Stackelberg 后悔以近似于最佳分类器。

Oct, 2017

偏好引导和逆强化学习

通过偏好评估，我们提出了 Bayesian 逆强化学习的一个方法，可以从观察到的信息中得出代理的偏好、策略和奖励序列的后验分布，并通过分析和实验结果展示与其他统计逆强化学习方法之间的关系。结果表明，即使观察到的代理策略不是最优的，我们也能够准确确定其偏好，并得出更好的策略。

Apr, 2011

使用先验知识进行多目标参数优化的高效效用函数学习

本研究提出了一种基于偏好学习方法的离线学习效用函数的优化算法，不仅可以使用关于结果的偏好，还可以使用效用函数空间的粗略信息，尤其在使用很少的结果时有助于提高效用函数的估计精度，并且可以结合模型来考虑效用函数学习任务中发生的不确定性。

Aug, 2022

多目标高效贝叶斯优化中的偏好探索

本文提出了一种基于贝叶斯优化和偏好探索的框架，通过实时采用基于成对比较的交互式学习和使用基于学习到的 DM 效用和结果的组合模型的贝叶斯优化来进行昂贵评估实验的优化。通过详细的模拟研究验证了偏好探索策略的表现。

Mar, 2022

多目标多智能体决策中的演示推理

本研究提出了一种算法，能够从优化或接近最优演示中推断出线性优先权重，并在三个环境中进行评估。经验证实，相对于基线算法，该算法在时间需求和推断偏好的准确性方面都有显著的改进。未来，我们计划在多智能体系统中评估该算法的有效性，其中一个智能体能够使用我们的偏好推断算法推断对手的偏好。

Apr, 2023

人类学习奖励函数的偏好模型

通过基于遗憾而非局部回报的人类偏好模型，可以更好地学习与人类利益相符的奖励函数，从而实现政策的对齐。

Jun, 2022

学习代理的计量经济学

本文开发了一种理论，可以在广义第二价格拍卖中从观察到的数据中推断出玩家估值，而不需要依赖于纳什均衡的假设，并展示了如何在一些 no-regret learning 算法的假设下推断玩家的价值，这对于在拍卖数据上测试任何学习理论行为模型前的重要步骤。

May, 2015