ICMLFeb, 2021

利用离线回归预测器适应上下文 Bandit 中的错误规格化

TL;DR提出了一种简单的上下文 Bandit 算法族,该算法族可以通过当有证据表明错配错误导致遗憾增加时返回良好的安全策略来适应错配误差,而不需要像在线或约束回归神谕一样更健壮的神谕。