Feb, 2024

影响性强盗:偏好塑造的臂选择

TL;DR该研究论文探讨了非平稳的多臂赌博机中,通过观察到的奖励来积极和消极地加强人群偏好,算法的目标是塑造人群偏好,从而最大化人群中支持特定臂的比例,提出了不同意见动态模型,包括两种二元意见动态(弹性递减和常数弹性),探讨了不同策略及其遗憾值的分析,针对多于两种意见的情况提出了基于Thompson采样的算法,同时讨论了多个推荐系统存在时受欢迎度和意见塑造目标之间的权衡问题。