May, 2023

基于多线性DR-次模极大化的Bandit算法及其在对抗性次模Bandit中的应用

TL;DR研究在线赌徒学习中的单调多线性DR-子模函数设计算法BanditMLSM,可以获得(1-1/e)遗憾的O(T ^ {2/3} log T);将子模随机带入分割拟阵约束和赌徒顺序单调最大化,可以在两个问题中获得O(T ^ {2/3} log T)的(1-1 / e)遗憾,这比现有结果更好。给出第一个关于具有分割拟阵约束的子模赌徒的次线性遗憾算法。