基于贝叶斯激励相容性的双边市场动态在线推荐

Jun, 2024

基于贝叶斯激励相容性的双边市场动态在线推荐

Dynamic Online Recommendation for Two-Sided Market with Bayesian Incentive Compatibility

Yuantong Li, Guang Cheng, Xiaowu Dai

TL;DR推荐系统在互联网经济中起着至关重要的作用，本论文提出了一种 Dynamic Bayesian Incentive-Compatible Recommendation Protocol (DBICRP) 来解决有效设计推荐系统所面临的挑战，同时还提出了一种基于两阶段算法 (RCB) 的方法来集成激励探索和高效的离线学习，以达到亚线性遗憾和贝叶斯激励兼容。在理论上，证明了 RCB 算法在高斯先验假设下实现了 O (sqrt (KdT)) 的遗憾和贝叶斯激励兼容，实证上通过模拟和实际应用验证了 RCB 算法的强激励增益、亚线性遗憾和鲁棒性，从而为在线偏好学习中的激励感知推荐提供了一个有原则的方法。

Abstract

recommender systems play a crucial role in internet economies by connecting users with relevant products or services. However, designing effective recommender systems faces two key challenges: (1) the exploration

recommender systems exploration-exploitation tradeoff dynamic incentive compatibility dynamic bayesian incentive-compatible recommendation protocol rcb algorithm

发现论文，激发创造

在线学习用于衡量广告拍卖中的激励兼容性

本文旨在通过黑盒方法探讨计算竞拍机制中的端到端激励兼容性（IC）遗憾，提供一种确定可靠估计 IC 遗憾的度量和最小化到达 - 准确估计所需时间的方法。我们设计了面向广告主问题和需求方平台问题的 $Regret-UCB$ 算法，并验证了模拟实验的理论结果，从而扩展了我们的 $Regret-UCB$ 算法以实现更好的 IC 遗憾误差。

Jan, 2019

在线匹配：一种用于大规模推荐的实时试错系统

通过在线学习的方法，本研究提出了一种用于大规模推荐系统的可扩展闭环赌博系统，以提高新内容发现和物品探索的能力。

Jul, 2023

JDRec: 在线组合推荐系统的实用 Actor-Critic 框架

提出了一种 Actor-Critic 强化学习框架下的组合推荐算法 JDRec，将推荐系统建模为一个组合优化问题，并通过优化列表生成和列表评估两个子问题来实现建模。通过在线和离线实验，验证其在用户交互下的有效性和实用性，在京东的推荐系统中应用，提高了点击率和综合价值。

Jul, 2022

基于深度强化学习的显式用户 - 物品交互模型推荐

本研究提出了一个基于深度增强学习的新型推荐框架，称为 DRR，它将推荐视为一种顺序决策过程，并采用 “Actor-Critic” 增强学习方案来模拟用户与推荐系统之间的交互，同时考虑动态适应和长期回报，经过四个真实数据集的广泛实验，证明了 DRR 方法确实优于现有的竞争对手。

Oct, 2018

深度贝叶斯多臂赌博机：在线个性化推荐中的探索

本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统，其包含探索技术和上下文的特征，以解决推荐系统中的反馈循环问题和算法偏差。

Aug, 2020

贝叶斯激励兼容赌徒探索

研究说明在互联网经济和医疗决策等环境中，每个决策者对信息进行开采利用，并产生可能有助于未来决策的信息，社会规划者通过信息披露来鼓励代理商在探索和开采之间取得平衡，从而最大化社会福利，文中提供了一个多臂赌博问题的激励兼容算法，其遗憾在所有多臂赌博算法中（不管是否具有激励兼容性）是渐进最优的。

Feb, 2015

具有异质代理的贝叶斯探索

该研究考虑利用 Bayesian Exploration 方法设计推荐系统，通过信息不对等来鼓励用户进行探索，此外还将用户分为不同类型，以实现最佳的个性化推荐。

Feb, 2019

电子商务系统中基于强化利润最大化的价值感知推荐

通过融合在线广告和微观经济基本概念到个性化推荐领域，我们提出了基于强化学习的价值感知推荐算法，该算法通过直接优化候选项的经济价值生成推荐列表，映射每种用户操作的货币化经济价值并以此作为排序列表的激励值，在线商业系统与离线基准测试中得到验证，证明了我们框架性能的提高，无论是传统的 top-$k$ 排名任务还是系统的经济利润。

Feb, 2019

基于双聚类技术的强化学习推荐系统

本研究提出了一种基于强化学习的推荐系统，通过使用双聚类技术，将推荐系统作为一个网格世界游戏，从而显著减少状态和行为空间，解决冷启动问题，并在现实数据集上取得了比广泛使用的算法更好的性能。

Jan, 2018

激励兼容的赌博算法：不再依赖重要性加权

提出了一种优化算法解决自利代理人可能不真实声明其偏好的问题，并达到接近最佳后悔度的保证，尤其在信息完全与朴素赌博设置中表现出色。

May, 2024