关键词self-concordant barriers
搜索结果 - 2
- 上下文连续型强化学习:静态对动态遗憾的比较
我们研究了上下文连续性强化学习问题,证明了任何达到次线性静态遗憾的算法都可以扩展到达到次线性动态遗憾,我们提出了一种算法,通过自协调屏障和内点法实现了次线性动态遗憾,并且得出两个关键事实:首先,对于上下文不连续的函数,没有算法可以达到次线性 - 多人游戏中 $O (logT)$ 换位后悔度的非耦合学习动态
本文通过使用具有时间不变学习率的乐观约束学习和自协调障碍,创新地组合学习动力学,成功地获得了广义和多人游戏中所有玩家的 swap regret,使每个玩家在 T 次游戏后都受到对数捆绑,同时在对抗性情形下保证了最佳的 sqrt (T) sw