竞争中的学习:对抗式赌博机
通过对探索和竞争之间的相互作用进行实证研究,我们发现:在数字经济中,数据作为进入在线市场的一个障碍,可能促使更好的算法的产生,获得更高的消费者福利;在有竞争的市场中,探索可能会损害系统的声誉,进而降低市场份额,而第一个进入市场的公司则可能促进更好的算法的出现从而提高客户福利。
Feb, 2019
本研究提出了一种统计学习模型,用于解决双边市场中的稳定匹配问题,其中一方需从随机奖励中学习另一方的偏好,该模型扩展了标准的多臂赌博机框架,并研究了集中式和分散式方法,发现与单人多臂赌博机设置相比,具有令人惊讶的探索 - 利用权衡。
Jun, 2019
研究说明在互联网经济和医疗决策等环境中,每个决策者对信息进行开采利用,并产生可能有助于未来决策的信息,社会规划者通过信息披露来鼓励代理商在探索和开采之间取得平衡,从而最大化社会福利,文中提供了一个多臂赌博问题的激励兼容算法,其遗憾在所有多臂赌博算法中(不管是否具有激励兼容性)是渐进最优的。
Feb, 2015
本文介绍了一种新的推荐系统模型,其面临探索 - 开发折衷,并可以被建模为多臂老虎机设置,由于用户具有自利性质,因此不能被强制性遵循推荐,作者提出了一种算法以探索为基础,同时考虑到代理人的利益,是一个渐进最优、刺激兼容、先验个体理性的推荐算法。
May, 2019
本研究调查了基于偏好的多臂赌博机和决斗赌博机的最新研究现状及其解决方法,关注于在序贯决策过程中进行的数据反馈和学习,并且考虑了强度信息不可用的情况。
Jul, 2018
该研究考虑利用 Bayesian Exploration 方法设计推荐系统,通过信息不对等来鼓励用户进行探索,此外还将用户分为不同类型,以实现最佳的个性化推荐。
Feb, 2019
本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统,其包含探索技术和上下文的特征,以解决推荐系统中的反馈循环问题和算法偏差。
Aug, 2020
通过一系列大规模的生产推荐系统实验和深入的分析,我们展示了我们的强化学习代理设计如何提高生产推荐系统的个性化,在一定程度上解决了多任务扩展性和 A/B 测试等瓶颈,并给出了一套测量用户探索效率的新指标设计。
Apr, 2023