本文研究了多类不定期赌徒的渐近最优控制问题,并提出了一类优先级策略,证明了在全局吸引子属性和技术条件下其是渐近最优的。我们将流体缩放技术与线性规划结果相结合,证明了当赌徒可索引时,Whittle 的索引策略包含在我们的一类优先级策略中。我们总结提出一些结论,包括关于如何选择来自渐近最优策略类的优先级策略等方面。
Sep, 2016
通过拉格朗日松弛和 Whittle 指数策略,本研究针对有限状态的多臂赌博机问题提出了一种解决方案,并使用值迭代算法验证了单臂赌博机的可指数性,讨论了在线掷骰策略和算法的计算复杂性,并通过数值实验证明,指数策略和掷骰策略优于短视策略。
Apr, 2023
通过建立一般的概率模型,我们考虑了一种对无休止多臂赌博问题的观测模型。我们将该问题建模为一个拥有可数信念状态空间的无休止赌博问题,并应用了可实现区域方法和部分守恒定律分析其可索引性和优先指数(Whittle 指数)。最后,我们提出了一个近似过程来将问题转化为可以应用于有限状态问题的 Niño-Mora 和 Bertsimas 的 AG 算法。数值实验表明,我们的算法表现出色。
Jul, 2023
这篇论文介绍了作者在研究动态优先级分配的多个随机项目的困难算法和应用上所做的工作,主要集中于无休止劫匪索引的理论和算法方面,采用线性规划、经济学和多目标优化方法。MPI 政策是在多项目环境中经济合理的,并且 MPI 指数策略通常实现近乎最优的性能,远优于使用传统方法衍生的基准策略。
稀缺资源分配政策的评估,采用随机对照试验数据,通过翻译和扩展最近的统计学思想提出了一种有效的估计方法和计算渐近正确置信区间的方法,验证其在实际环境中的方法学,提供先前不可见的结论。
Feb, 2024
研究了一类探索性多臂赌博问题,并通过建立指标化和获得 Whittle 指标,提高了 Whittle 指标策略的直接实施性,同时,研究发现 Whittle 指标策略与 “近视政策” 等价,因此具有半通用性,这导致 Whittle 指标策略是某些条件下最优的。同时,通过拉格朗日弛豫,开发了计算性能上限的有效算法,证明了 Whittle 指标策略接近最优。
Oct, 2008
本文介绍了一种只使用算术运算的递归自适应贪心算法,能在(伪)多项式时间内计算有限时间区间离散状态赌博机的 Gittins 指数,可作为无法计算得到的有限时间区间多臂赌博机问题的次优启发式指数规则。该算法在计算研究中与传统校准方法进行了基准测试。
Jul, 2022
本文介绍了基于贝叶斯观点的用于最小化(频率主义)后悔的指数策略:我们主要贡献在于证明了贝叶斯 UCB 算法在奖励分布属于一维指数族的情况下渐进最优,同时我们还证明了贝叶斯文献提供了新的探索速率思路,最优解法的逼近或有限时间 Gittins 指数的近似为 kl-UCB + 和 kl-UCB-H + 算法提供了合理性。
Jan, 2016
本文研究了公共物品的公平分配问题,提出了一个适用于不可分配公共物品的 “核心” 概念,并引入了一个加性逼近方法和多项式时间算法来处理问题。
May, 2018
本文提出了公平性度量在资源分配中的五个公理,并构建了满足这些公理的一系列公平度量。公正度量的特性被证明,并给出了很多工程上的应用,例如调整公平性度量分辨率的推广的 Jain 指数和阿尔法公平效用函数的新理解。此外,本文还构建了另一组四个公理,以捕捉效率目标和可行性约束。
Jun, 2009