Feb, 2012

在线线性优化带赌博式反馈的极小极大政策

TL;DR该研究提出了在线线性优化问题的带有 bandit 反馈的算法,并使用 Mirror Descent 算法在特定案例中获得具有最小二乘优化后退限制的计算高效性的策略,证明了计算上以及最小二乘上的结果优化,为输出结果减少了冗余的符号。