Jul, 2023

比例响应:用于简单和累积遗憾最小化的情境赌博机算法

TL;DR提出了一种新的基于上下文 Bandit 算法的族群,利用 “保序手臂集” 提供每个上下文的一组手臂,覆盖了上下文特定的最优手臂,在简单遗憾最小化和累积遗憾最小化方面都有优异表现。