Sep, 2017

关于 MNL-Bandit 组合选择模型的紧密下限的说明

TL;DR考虑多项式对数式组合 (MNL) 赌博模型下的动态组合规划问题,证明了关于累计遗憾的严格下界和现有遗憾上界相匹配,适用于所有参数(时间范围 T,物品数量 N 和最大组合容量 K),并减小了现有研究中上下限遗憾之间的 O (√K) 间隙。