本文研究了集群上下文强化学习,其中回报和资源消耗是集群特定线性模型的结果,算法无法知晓各个元素的集群成员关系。通过拉动一根臂在一个时间段内会产生回报和对于多个资源的消耗,并且任何资源的总消耗超过约束条件会导致算法终止。因此,最大化总回报需要学习回报、资源消耗和集群成员关系的模型。我们提出了一种算法,在时间段的数量上具有亚线性的遗憾,并且不需要访问所有的臂。特别地,我们证明只需对随机选择的一部分臂执行一次聚类即可达到这个结果。为了实现这个结果,我们结合了计量经济学和约束条件强化学习的文献中的技术。
Aug, 2023
研究了具有全局背包限制条件下的上下文多臂赌博问题,提出了一种计算效率更高、后悔更低的算法,复杂度与策略空间的大小成对数关系,并将结果推广到一种没有背包限制但目标是任意 Lipschitz 凹函数的变体。
Jun, 2015
研究如何在高维度环境下应用稀疏估计和在线学习算法改进上下文强化学习中的多臂老虎机与背包问题,通过联合在线估计和原始 - 对偶框架,控制背包容量,从而取得了特征维度对数级依赖的次线性遗憾,同时在数据贫瘠和数据丰富情况下实现了最优遗憾结果。
Nov, 2023
我们设计了第一个算法来解决具有资源限制的情境赌博问题,包括具有任意策略集的情境赌博和背包式赌博,并证明了具有接近最优统计属性的遗憾保证。
Feb, 2014
本文提出了针对广义线性情境臂的上界置信度算法,实现了与众不同的性能,同时我们还分析了更简单的上界置信度算法,在特定情况下证明了该算法具有最优的后悔。
Feb, 2017
该研究探讨了在对抗性破坏下的 K 臂线性上下文赌博问题,并提出了一种在随机和对抗环境下具有理论保证的名为最佳两全(BoBW) RealFTRL 的策略。
Dec, 2023
本文提出了一种基于投影梯度下降思想的具有公平性约束的上下文赌博问题解决算法,能够处理特定成本约束条件下的收益最大化问题。
May, 2023
本文研究了一个约束的上下文线性赌博机问题,提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限,针对多臂赌博机情况提出了高效算法,同时给出了问题的下限和模拟结果。
Jun, 2020
本篇论文针对强异质性或复杂结果模型容易引起难以估计问题的上下文匹配算法,通过整合因果推断文献中的平衡方法来降低其偏差估计的问题,并对具有平衡的线性上下文匹配算法进行损失分析,从而展示了其在多个监督学习数据集上的实用优势以及在初级训练数据中模拟模型错误和偏见的工作中所展现出的优越性。
Dec, 2018
我们设计了一种渐近上限最优算法,并充分利用线性结构和精确探索,从而减少了在多种合理情境下的失算,数值结果表明,与其他基准算法相比,我们的方法大大减少了失算。
Oct, 2019