Mar, 2013

高维线性二次系统的高效强化学习

TL;DR研究高维线性二次(LQ)系统的自适应控制问题,提出一种实现遗憾界为O(p√T)的自适应控制方案,并指出该方法在计算广告领域具有突出的应用价值。