基于心理学的动态偏好模型
通过理论分析学习动态,我们提供了对人类偏好对齐的理论观察,揭示了优化算法可能优先考虑具有更高偏好区分度的行为,并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。
Mar, 2024
使用机器学习模型进行人机协作系统,研究展示了其动态过程、稳定状态和实际效果;通过针对背包问题的实验,发现人类在与机器学习模型合作中能够改进预测性能,同时发现货币激励对人类决策没有积极影响。
May, 2024
研究表明,推荐系统展示给用户的内容会影响他们的决策, 本文通过使用历史用户交互数据训练预测用户模型来评估推荐系统对用户偏好的影响,提出使用 “安全移位” 的概念来规避操纵行为。模拟实验表明,优化保持 “安全移位” 的推荐系统能够避免 manipulative 行为同时仍然能够产生用户参与度。
Apr, 2022
研究考虑了推荐系统、用户兴趣演化以及有害内容之间的相互作用,建模了推荐对用户行为的影响,特别是对有害内容消费的倾向性。旨在找到在最大化点击率(CTR)和减轻伤害之间建立权衡的推荐策略,并提出了在稳态下找到最优推荐策略的算法。在以真实数据初始化的半合成电影推荐设置上进行实验,观察到我们的策略在同时最大化 CTR 和减轻伤害方面优于基准线。
Jun, 2024
从人类反馈中学习偏好模型一直是人工智能领域最近进展的核心。本研究通过推广最优设计的概念,研究了用于学习偏好模型的数据收集问题,并提出了面向排名列表的有效算法,证明了模型估计器随更多数据而改善,估计器下的排名误差也随之减少,并在多个合成和真实数据集上进行实验以展示算法的统计效率。
Apr, 2024
本文研究和提出了两种新的图形模型,解决了用户偏好和评分之间的区别问题,通过两个电影评分数据集的实证研究,证明了明确建模用户偏好对于协同过滤非常重要,但是不能完全忽略评分信息。
Oct, 2012
为了提高新闻推荐的用户兴趣模型和模型训练的效果,我们提出了一种利用各种用户反馈的统一用户建模框架,并采用强到弱的注意力网络来提炼正负用户兴趣,以及采用多反馈模型训练框架来学习关注度感知的新闻推荐模型。
Feb, 2021
现有的 AI 对齐方法假设偏好是静态的,这是不现实的:我们的偏好会改变,甚至可能受到与 AI 系统的交互的影响。为了阐明错误地假设偏好是静态的后果,我们引入了动态回报马尔可夫决策过程 (DR-MDPs),明确地模拟偏好变化和 AI 对其的影响。我们发现,尽管静态偏好的假设具有方便性,但它可能破坏现有对齐技术的准确性,使其暗地里奖励 AI 系统以影响用户偏好,而用户可能并不真正想要这样。然后,我们探讨了潜在的解决方案。首先,我们提供了一个统一的视角,阐述了一个代理的优化范围在某种程度上如何帮助减少不希望的 AI 影响。然后,我们从一开始就形式化了不同的 AI 对齐概念,考虑了偏好的变化。比较了 8 种这样的对齐概念的优缺点,发现它们要么倾向于引起不良的 AI 影响,要么过于风险回避,这表明解决偏好改变问题的简单解决方案可能不存在。由于在实际环境中无法避免处理不断变化的偏好,这使得我们更加重视如何平衡风险和能力来处理这些问题。我们希望我们的工作可以提供概念的清晰性,并成为针对人类偏好的变化性和可影响性明确考虑和应对的 AI 对齐实践的第一步。
May, 2024