一种带半匪掷反馈的更好的资源分配算法

Mar, 2018

A Better Resource Allocation Algorithm with Semi-Bandit Feedback

Yuval Dagan, Koby Crammer

TL;DR研究了固定数量的臂之间的序列资源分配问题，提出了一种算法并证明了 O（log n）的后悔上限，同时证明了这个上限是紧密的。该算法优于以前的算法，并且关注的关键是资源分配和成功率。

Abstract

We study a sequential resource allocation problem between a fixed number of arms. On each iteration the algorithm distributes a resource a

发现论文，激发创造

研究一种顺序资源分配问题，包括一个固定数量的重复工作，每次时间步骤经理都应该在工作之间分配可用资源以最大化完成的工作数量的期望值。

Jun, 2014

考虑到重复使用某些选项可能是不可取的或不可行的，本文提出了一种新颖的随机多臂赌博机设置，并通过映射到 PINWHEEL 调度问题证明了问题的优化累积奖励不允许有伪多项式时间算法，但它设计了一种贪婪算法和一种基于 UCB 的算法，具有一定的优异性。

Jul, 2019

研究了在随机多臂老虎机中探索利用可分配计算资源的问题，提出了两个不同场景的算法，并验证了实验所得结论优于基准算法。

Oct, 2020

研究了在最大价值和指标反馈下的组合多臂赌博问题，并提出一种算法来保证概率有限支持中随机手臂结果的遗憾。

May, 2023

本文研究了在线组合优化问题中的半盲反馈，提出了一种优化算法来减少期望后悔。该算法以 L_T * 的平方根为增长率，在部分反馈方案中首次实现了此类保证，并在组合设置中首次实现了此类保证。

Feb, 2015

本文研究如何分配可分配的可再生资源，提出两种算法设计来达到最优值，同时给出了几种理论分析结果。

Jun, 2023

开发出新的半强化学习算法，不需要先验信息，可同时在随机环境和对抗环境下获得对数级和平方级的遗憾，并通过在合成数据上的实验证明了其性能的一致性和优越性。

Jan, 2019

本篇论文旨在应对多臂赌博机问题中存在多个最优 / 近似最优机械臂的后悔最小化问题，通过提出自适应算法来自动适应问题的难度，并在理论和实验方面展现了该算法的优越性。

Jun, 2020

本文研究用多臂赌博机问题的方法，解决用户和资源之间的最佳匹配问题，采用马尔科夫链的状态演变，采用匹配学习算法实现。

Dec, 2010

研究多智能体多臂赌博学习问题，以无通信和有限奖励为前提，提出了一种分布式拍卖算法并进行样本最优匹配学习和新的拍卖决策策略，通过新颖的基于次序统计量的后悔分析带来了全新的性能，实验模拟表明性能依赖于对数时间。

Jun, 2023