在线多臂赌博机的曝光公平性
我们介绍了一种名为 RMAB-F 的新的多臂老虎机模型,它具有长期公平约束;并开发了一种名为 Fair-UCRL 的强化学习算法,证明了其能够在奖励遗憾和公平违反遗憾方面保持概率亚线性边界。
Dec, 2023
本文提出了一种 RMAB 的方法,称为 SoftFair,旨在强制实现软公平约束条件,该约束条件要求算法在选择 RMAB 中的每个项时都不能倾向于一个项,目的是避免在执行干预时出现某些区域或社区被忽略的情况。
Jul, 2022
研究公平多臂老虎机问题中学习与公平之间的相互作用,通过特定向量表示公平性约束,定义一个公平感知的后悔,通过两个参数刻画一个 Fair-SMAB 算法类,并提供一个公平保证,无论学习算法的选择是什么,都可以持续地适用。
May, 2019
此篇研究考虑了一个名为不安定多臂赌博机问题的模型,提出了一种探索和利用并行局部的策略,使得在一定的系统参数有限制时,能够获得对数级次的回报,而在缺乏关于系统的任何信息时,能够获得接近对数水平的回报。同时,也将问题扩展到了多个分布式参与者共享资源的情况,并得出相应结果。结果对于各种动态系统和通信网络以及金融投资的自适应学习都有应用。
Nov, 2010
本文研究在资源受限条件下随机过程的干预规划问题,并提出了一种解决异构工人的多工人多臂不懈赌博机问题的方法。通过开发基于指标的调度策略和 Whittle 指数的多工人扩展,实现公平性和高收益的干预计划。最后的实验结果表明,该方法在公平性方面表现优异,而在奖励积累方面只有轻微的牺牲。
Mar, 2023
提出了一种新的方法来解决具有全局不可分离奖励的不安定多臂赌博机问题,并且通过引入线性和 Shapley-Whittle 指标以及自适应策略来改进现有方法。实验证明,该方法在合成数据和现实世界数据中表现优于基线模型和基于指标的方法。
Jun, 2024
基于需求紧迫性的研究发现,从公平性文献中提取的两个公平性目标,最小最大奖励和最大纳什福利,分别通过水充实算法和平衡不同群体大小的贪婪算法进行高效求解,在三个模拟领域中展示了比现有技术更加公平,而对效用几乎没有牺牲的结果。
Aug, 2023
提出针对多臂赌博机模型(MAB)的新型组合睡眠 MAB 模型。通过扩展在线学习算法 UCB 以处理利用和探索之间的权衡,同时采用虚拟队列技术来正确处理公平性约束。最终提出一种名为 LFG 的新算法,可保证可行性最优,具有受时间平均后悔上限约束的时间复杂度,并进行了广泛的模拟以证明其有效性。
Jan, 2019
提出了一种基于神经网络的预训练模型(PreFeRMAB),具备广泛的零样本能力,能够更加高效地在特定实例上进行微调,同时适用于离散或连续状态空间的多动作问题,解决了以往研究中在处理连续状态时需要重新训练等限制,拥有理论收敛保证和在多个具有挑战性、以真实世界为灵感的问题上的实证优势。
Oct, 2023
通过使用一种创新的偏置对抗性奖励估计器和低复杂度指标策略,我们开发了一种新颖的强化学习算法来解决具有未知转换函数和敌对奖励的周期性不安定性多臂赌博机问题,以最大化总的敌对奖励,并确保在每个决策阶段满足瞬时激活约束条件,我们的算法在我们所考虑的具有挑战性的设置中保证了约根号 T 的遗憾界,这在我们的所知范围内是首次实现的。
May, 2024