Jul, 2023

多智能体情境赌博机制中的Epoch-Greedy鲁棒性分析

TL;DR研究如何在多臂赌博机制(例如PPC拍卖)中有效地学习,解决诱导真实出价行为(激励)、用户个性化(上下文)和点击模式诱导(污损)三个挑战。该研究提出一种在环境和污损情况下表现良好的上下文多臂赌博算法。