基于心理学的动态偏好模型

MMAug, 2022

Towards Psychologically-Grounded Dynamic Preference Models

Mihaela Curmei, Andreas Haupt, Dylan Hadfield-Menell, Benjamin Recht

TL;DR本文提出了通过心理学模型来设计符合用户时间变化偏好的推荐系统的方法，并讨论了心理模型对推荐系统的影响以及其对系统设计和性能评估的启示。

Abstract

Designing recommendation systems that serve content aligned with time varying preferences requires proper accounting of the feedback effects of recommendations on human behavior and psychological condition. We argue that modeling the influence of recommendations on people's preferences

recommendation systems dynamic preference models psychological foundation system design system performance

发现论文，激发创造

推荐系统与人的交互

该研究旨在了解推荐算法对未来用户数据的影响，通过提出一个简单模型，表明忽略这个反馈循环将导致非一致性评估器，因此验证了我们的结论。

Mar, 2017

理解与人类反馈一致性的学习动态

通过理论分析学习动态，我们提供了对人类偏好对齐的理论观察，揭示了优化算法可能优先考虑具有更高偏好区分度的行为，并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。

Mar, 2024

实现型人机协作的动态模型：理论和实证证据

使用机器学习模型进行人机协作系统，研究展示了其动态过程、稳定状态和实际效果；通过针对背包问题的实验，发现人类在与机器学习模型合作中能够改进预测性能，同时发现货币激励对人类决策没有积极影响。

May, 2024

在推荐系统中估计和惩罚引起的偏好转变

研究表明，推荐系统展示给用户的内容会影响他们的决策，本文通过使用历史用户交互数据训练预测用户模型来评估推荐系统对用户偏好的影响，提出使用 “安全移位” 的概念来规避操纵行为。模拟实验表明，优化保持 “安全移位” 的推荐系统能够避免 manipulative 行为同时仍然能够产生用户参与度。

Apr, 2022

用户偏好动态下的推荐系统伤害缓解

研究考虑了推荐系统、用户兴趣演化以及有害内容之间的相互作用，建模了推荐对用户行为的影响，特别是对有害内容消费的倾向性。旨在找到在最大化点击率（CTR）和减轻伤害之间建立权衡的推荐策略，并提出了在稳态下找到最优推荐策略的算法。在以真实数据初始化的半合成电影推荐设置上进行实验，观察到我们的策略在同时最大化 CTR 和减轻伤害方面优于基准线。

Jun, 2024

人类反馈的最佳设计

从人类反馈中学习偏好模型一直是人工智能领域最近进展的核心。本研究通过推广最优设计的概念，研究了用于学习偏好模型的数据收集问题，并提出了面向排名列表的有效算法，证明了模型估计器随更多数据而改善，估计器下的排名误差也随之减少，并在多个合成和真实数据集上进行实验以展示算法的统计效率。

Apr, 2024

使用模拟用户来度量推荐系统的效果

本文通过提出基于模拟框架的评估指标，研究了推荐系统中普遍存在的偏见与用户行为之间的关系，并通过经验案例研究了流行度偏见如何随时间展现。

Jan, 2021

协同过滤的基于偏好的图形模型

本文研究和提出了两种新的图形模型，解决了用户偏好和评分之间的区别问题，通过两个电影评分数据集的实证研究，证明了明确建模用户偏好对于协同过滤非常重要，但是不能完全忽略评分信息。

Oct, 2012

FeedRec: 利用各种用户反馈的新闻推荐

为了提高新闻推荐的用户兴趣模型和模型训练的效果，我们提出了一种利用各种用户反馈的统一用户建模框架，并采用强到弱的注意力网络来提炼正负用户兴趣，以及采用多反馈模型训练框架来学习关注度感知的新闻推荐模型。

Feb, 2021

与可变且可影响奖励函数保持 AI 对齐

现有的 AI 对齐方法假设偏好是静态的，这是不现实的：我们的偏好会改变，甚至可能受到与 AI 系统的交互的影响。为了阐明错误地假设偏好是静态的后果，我们引入了动态回报马尔可夫决策过程 (DR-MDPs)，明确地模拟偏好变化和 AI 对其的影响。我们发现，尽管静态偏好的假设具有方便性，但它可能破坏现有对齐技术的准确性，使其暗地里奖励 AI 系统以影响用户偏好，而用户可能并不真正想要这样。然后，我们探讨了潜在的解决方案。首先，我们提供了一个统一的视角，阐述了一个代理的优化范围在某种程度上如何帮助减少不希望的 AI 影响。然后，我们从一开始就形式化了不同的 AI 对齐概念，考虑了偏好的变化。比较了 8 种这样的对齐概念的优缺点，发现它们要么倾向于引起不良的 AI 影响，要么过于风险回避，这表明解决偏好改变问题的简单解决方案可能不存在。由于在实际环境中无法避免处理不断变化的偏好，这使得我们更加重视如何平衡风险和能力来处理这些问题。我们希望我们的工作可以提供概念的清晰性，并成为针对人类偏好的变化性和可影响性明确考虑和应对的 AI 对齐实践的第一步。

May, 2024