Jul, 2023
比例响应:用于简单和累积遗憾最小化的情境赌博机算法
Proportional Response: Contextual Bandits for Simple and Cumulative Regret Minimization
Sanath Kumar Krishnamurthy, Ruohan Zhan, Susan Athey, Emma Brunskill
TL;DR提出了一种新的基于上下文 Bandit 算法的族群,利用 “保序手臂集” 提供每个上下文的一组手臂,覆盖了上下文特定的最优手臂,在简单遗憾最小化和累积遗憾最小化方面都有优异表现。