Oct, 2024

超越二次函数的强盗控制紧速率

TL;DR本研究解决了在面对对抗性扰动情况下,如何为复杂控制问题实现最佳后悔值的未解问题。论文提出了一种新算法,实现了在这种情况下的$\tilde{O}(\sqrt{T})$最优后悔值,相较于之前的$\tilde{O}(T^{2/3})$的界限有了显著提升。此算法有效克服了内存结构带来的挑战,并引入了对强凸成本的处理方法,具有广泛的应用潜力。