Aug, 2024

具有随机延迟反馈的偏置对抗赌博者

TL;DR本研究解决了在对抗赌博者问题中,行动反馈受到延迟影响的实际情况。作者提出了两种算法来应对延迟情况,其中一种在已知延迟分布的情况下能达到最佳后悔界限,另一个则在未知分布的情况下利用延迟的期望值,显著提升了政策更新的效率。研究结果显示,这些算法在合成和真实数据集上的表现出色,潜在地改善了在线广告和推荐系统的应用效果。