ICMLJan, 2022

基于 PDE 的无约束在线学习最优策略

TL;DR通过解偏微分方程生成新的势函数,得到一种新的算法,该算法的任何时候的失误上限达到了最佳损失后悔权衡,且避免了不实用的加倍技巧。