关键词generalized linear bandits
搜索结果 - 7
- 广义线性 Bandit 算法及其重尾奖励的高效计算
本文研究了具有重尾回报的广义线性赌博问题,提出了基于截断和中值平均的两种新算法,其在时间上界和上下文信息维度的情况下,几乎达到了最优的减悔界限。通过数值实验结果验证了我们算法的优点。
- 广义线性赌臂机在参数漂移下的遗憾界
本文探究了广义线性 Bandits 在非稳态环境中的应用,比如参数漂移等问题,提出了一种新增添的算法,基于动态问题的推断,解决了广义线性 Bandits 在非稳态环境下表现出的缺陷,拥有了更优秀的性能表现。通过对于动态问题投影过程的修改,我 - 带遗忘的广义线性赌博机的自共轭分析
本文提出了一种基于置信度的算法来处理自适应遗忘的自共轭概率线性泊松广义线性臂问题(GLB),并分析了其在突然变化环境中的性能,结果表明该方法有望解决 GLB 中的非平稳性问题。
- 局部差分隐私(情境型)Bandits 学习
本文研究局部差分隐私策略下的赌博机学习。我们提出了一种简单的黑盒归约框架,可以解决大量的无上下文赌博机学习问题,同时保证局部差分隐私。这个框架在真实应用中更具吸引力。此外,我们将其扩展到广义线性赌博机,并推测它是近乎最优的。
- 广义线性臂带问题中的随机探索
研究广义线性臂选择算法的两种随机算法:GLM-TSL 和 GLM-FPL,并提供了对它们的 $\tilde {O}(d\sqrt {n \log K})$ 遗憾度性能保证,这两种算法在逻辑回归和神经网络算法中表现出色并明显更快。
- 广义线性赌博机中最佳臂的识别
针对广义线性赌博机的最佳臂识别问题,提出了第一个算法,并在模拟中评估其性能和采样效率。该算法旨在最小化确定足够接近最佳臂所需的臂拉取次数。
- NIPS可伸缩的广义线性臂:在线计算与哈希
提出了新的可扩展算法来解决广义线性赌博机问题,基于在线计算的新算法(GLOC)将任何在线学习算法转化为 GLB 算法,同时,通过内积搜索,为选择大量臂的情况设计了新算法,并提出了一种快速准确的哈希键计算方法,并进行了实验验证。