Sep, 2015

在线一位反馈随机线性优化

TL;DR本文研究在线随机线性优化的特殊赌徒环境,其中每轮只有一位信息被揭示给学习者。我们假定二元反馈是从对数模型产生的随机变量,并旨在最小化未知线性函数定义的遗憾。为了解决此挑战,我们通过利用观测模型的特定结构开发了一种高效的在线学习算法。