该研究考虑利用 Bayesian Exploration 方法设计推荐系统,通过信息不对等来鼓励用户进行探索,此外还将用户分为不同类型,以实现最佳的个性化推荐。
Feb, 2019
研究说明在互联网经济和医疗决策等环境中,每个决策者对信息进行开采利用,并产生可能有助于未来决策的信息,社会规划者通过信息披露来鼓励代理商在探索和开采之间取得平衡,从而最大化社会福利,文中提供了一个多臂赌博问题的激励兼容算法,其遗憾在所有多臂赌博算法中(不管是否具有激励兼容性)是渐进最优的。
Feb, 2015
本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统,其包含探索技术和上下文的特征,以解决推荐系统中的反馈循环问题和算法偏差。
Aug, 2020
本文提出了一种上下文多臂赌博机模型来解决推荐系统中内容提供商对曝光量的依赖性,并开发具有次线性遗憾度和优化目标的算法,该算法的目标是最大程度地提高用户的福利和保留至关重要的内容提供商。
Feb, 2023
本文研究了在互联网经济中个体决策者在制定战略选择时的信息生产和消费,重点关注探索、开发和利益激励之间的平衡,并提出了一种不使用任何货币转移的建议政策设计方法以协调决策者。结果表明,经过实验模拟,设计的建议政策可以达到恒定的遗憾值,即使在面对随机收益时也可以达到对数遗憾。
Feb, 2016
本文提出了一种基于强化学习和贝叶斯模型的音乐推荐和播放列表生成方法,探讨了探索和利用用户偏好的平衡,并表明这种新方法具有很强的潜力。
Nov, 2013
研究系统在进行学习和获取新信息的探索过程中如何平衡用户的需求和竞争,通过考虑多臂赌博算法之间的竞争和用户的不同反应模型,研究竞争是否促进更好的算法的采用,这与经济学中的 “竞争与创新” 关系密切相关。
Feb, 2017
该研究使用线性参数化多臂赌博机模型来提高在线服务推荐新产品、视频、歌曲和广告的效果,得到了能够满足用户喜好探索和系统数据调查的解决方案,并在 Netflix 和 MovieLens 数据集上进行了测试。
Jan, 2013
研究在线学习算法中存在的风险规避现象,它如何影响推荐系统的需求和内容创作者的创作,以及如何通过平衡内容的稳定性和质量来解决这一问题。
May, 2022
本文研究了多臂赌博机问题中的激励探索方法,分析了偏差反馈对于 UCB 算法、E - 贪心算法以及汤普森抽样算法表现的影响。结果表明这些算法在偏差反馈下产生了 $log (T)$ 的遗憾和补偿,在激励探索方面是有效的。
Nov, 2019