针对不安定多臂赌博机的软公平性探讨
我们介绍了一种名为 RMAB-F 的新的多臂老虎机模型,它具有长期公平约束;并开发了一种名为 Fair-UCRL 的强化学习算法,证明了其能够在奖励遗憾和公平违反遗憾方面保持概率亚线性边界。
Dec, 2023
通过建立公平的多臂赌博机框架,考虑离线和在线情形中的不公平问题,本论文证明了算法在单次选取情况下的次线性公平后悔度,并在实证中展示了在多次选取场景中算法的良好表现。
Feb, 2024
基于需求紧迫性的研究发现,从公平性文献中提取的两个公平性目标,最小最大奖励和最大纳什福利,分别通过水充实算法和平衡不同群体大小的贪婪算法进行高效求解,在三个模拟领域中展示了比现有技术更加公平,而对效用几乎没有牺牲的结果。
Aug, 2023
提出针对多臂赌博机模型(MAB)的新型组合睡眠 MAB 模型。通过扩展在线学习算法 UCB 以处理利用和探索之间的权衡,同时采用虚拟队列技术来正确处理公平性约束。最终提出一种名为 LFG 的新算法,可保证可行性最优,具有受时间平均后悔上限约束的时间复杂度,并进行了广泛的模拟以证明其有效性。
Jan, 2019
本文研究在资源受限条件下随机过程的干预规划问题,并提出了一种解决异构工人的多工人多臂不懈赌博机问题的方法。通过开发基于指标的调度策略和 Whittle 指数的多工人扩展,实现公平性和高收益的干预计划。最后的实验结果表明,该方法在公平性方面表现优异,而在奖励积累方面只有轻微的牺牲。
Mar, 2023
研究公平多臂老虎机问题中学习与公平之间的相互作用,通过特定向量表示公平性约束,定义一个公平感知的后悔,通过两个参数刻画一个 Fair-SMAB 算法类,并提供一个公平保证,无论学习算法的选择是什么,都可以持续地适用。
May, 2019
提出了一种基于神经网络的预训练模型(PreFeRMAB),具备广泛的零样本能力,能够更加高效地在特定实例上进行微调,同时适用于离散或连续状态空间的多动作问题,解决了以往研究中在处理连续状态时需要重新训练等限制,拥有理论收敛保证和在多个具有挑战性、以真实世界为灵感的问题上的实证优势。
Oct, 2023
研究 RMAB 系统在公共卫生领域的部署,发现整体预测准确性的提高可能会伴随着 RMAB 系统性能的降低;使用决策评估度量来评估预测组件,更好地解释了 RMAB 系统的整体性能表现。
Jan, 2023
提出了一种新的方法来解决具有全局不可分离奖励的不安定多臂赌博机问题,并且通过引入线性和 Shapley-Whittle 指标以及自适应策略来改进现有方法。实验证明,该方法在合成数据和现实世界数据中表现优于基线模型和基于指标的方法。
Jun, 2024
提出了 “Streaming Bandits” 框架,该框架为不安宁的多臂赌博机问题,其中异构臂可以在有限寿命后进入和离开系统。该框架自然地解决了卫生干预计划问题,同时提供了一个新颖而高效的算法来计算 Whittle 索引解。
Mar, 2021