Jul, 2023

多智能体情境赌博机制中的 Epoch-Greedy 鲁棒性分析

TL;DR研究如何在多臂赌博机制(例如 PPC 拍卖)中有效地学习,解决诱导真实出价行为(激励)、用户个性化(上下文)和点击模式诱导(污损)三个挑战。该研究提出一种在环境和污损情况下表现良好的上下文多臂赌博算法。