Jul, 2021

高效的一阶上下文臂状多臂老虎机:预测、分配和三角矩阵判别

TL;DR本文探讨了如何在 low noise 的情况下,通过 logarithmic loss 和 triangular discrimination 达到 contextual bandits 问题中的 first-order guarantees,取得了很好的效果和结果