具有上下文依赖显著特征的偏好建模
本研究提出一种新颖的参数化混合成员Mallows模型(M4),旨在解决由嘈杂和不一致的用户群体产生的成对比较变异性的问题。通过将成对比较视为单词,并将用户视为文档,在M4和主题模型之间建立统计连接,探索具有可分离结构的Mallows组件,并利用可分离主题发现的最新进展。我们证明了我们的新模型在预测现实世界偏好方面与当前最先进的方法在实证上具有竞争力,并使用基于鲁棒性极点识别凸多边形的算法来学习参考排名。
Apr, 2015
本文提出了一种适用于大型配置空间的偏好获取方法,其中集合最大间隔法可视为将最大间隔学习推广到集合领域,并可生成一组“多样化”的项目,以询问用户的详细信息。此外,该方法可以鼓励参数空间的稀疏性,以支持有利于仅集中于少数特征权重组合的实用性评估。我们提出了一个混合整数线性规划公式,并展示了我们的方法如何与贝叶斯偏好获取替代方案相比有优势,并且可以轻易扩展到现实数据集。
Apr, 2016
该研究提出了路面低秩(FLR)模型,通过矩阵完成技术和的 FLR 模型中的侧面信息开发 归纳成对排名(IPR)算法,在 FLR 模型下有证据表明它以样本高效的方式学习用于排名的 FLR 模型。
Feb, 2017
本论文介绍了一种基于 Choice Perceptron 的算法,该算法可用于从 set-wise choice feedback 中学习用户喜好,并在理论上证明了其良好性能。该算法可解决搜索空间较大、具有 Boolean-numeric 特征空间的构造性任务。
Nov, 2017
本文提出了一种新的概率偏好模型f-BTL,它能更精确地推断带有特征的物品的偏好,在此基础上提出了一个新的最小二乘算法fBTL-LS,其采样复杂度较低,依赖于物品的特征表述。这项工作展示了排名问题真正的复杂性,并证明了恢复潜在排名所需的样本复杂度的信息论下界。在合成和现实数据上进行了实验验证。
Aug, 2018
学习基于有噪声的配对比较的项目顺序,在无法分配具体标签的情况下很有用,尤其是在标注者必须进行主观评估的情况下。本研究在具有上下文属性的有序项目中研究了配对偏好反馈的主动学习,提出了两种算法来贪婪地最小化排序错误,证明了这些算法相对于非上下文排名方法和主动偏好学习基线具有更好的样本效率。
May, 2024
大规模基础模型预训练在原始网络数据上,无法直接部署,需要经过广泛的与人类偏好的协调。本文提出PAL框架,将人类偏好的多样性融入到预训练策略中,通过理想点模型和混合建模方法,捕捉到群体偏好的多样性,同时学习一种常用的偏好潜空间,能够适应新用户的少样本泛化。该方法利用基础模型的倒数第二层表示和简单的MLP层,学习与现有大型先进奖励模型相当的奖励函数,极大提升了奖励建模的效率。实验证明,PAL在多个数据集上与基准模型相比,能够达到竞争性的奖励模型准确性,并揭示了当前偏好数据集的不足,呼吁采用更细致的数据收集方法。
Jun, 2024
该研究解决了在成对偏好建模中无序性的问题,特别是高维情况下玩家间复杂无序性难以捕捉的挑战。论文提出了一种概率模型,能够共同学习每个玩家的高维表示及其特定的数据度量空间,并且通过额外的约束,模型能退化为先前的无序表示学习模型。研究表明,该方法在多个真实世界数据集上的预测性能优于现有竞争方法,具有重要的应用潜力。
Sep, 2024