Jun, 2024

战略线性上下文强盗

TL;DR通过研究策略性代理商操控推荐系统以最大化推荐次数的现象,我们针对线性上下文赌博问题的策略变体进行研究,其中,策略可以误报私有观察到的上下文给学习者。我们将算法设计问题视为不确定性下的机制设计问题,并提出了乐观的致命开关机制(OptGTM),激励代理商(即臂)真实报告上下文,同时最小化遗憾。我们还表明,如果不考虑代理商的策略性质,将导致线性遗憾。然而,在机制设计和遗憾最小化之间存在一种权衡,这个研究旨在提供对在线学习和机制设计交叉领域的洞察。