随机赌博机中曝光的公平性
本研究介绍了多臂赌博问题中的公平性概念以及提出了基于“chained”置信区间的多臂赌博问题的可证公平算法,并证明了任何公平算法必须具有该算法的时间复杂度,同时也证明了公平和非公平学习之间有强烈的界限。在一般情境中,本研究证明了公平性与KWIK学习模型的紧密联系,并提出了一种多项式时间复杂度的可证公平算法来解决线性上下文赌博问题。
May, 2016
本研究探讨在随机的多臂老虎机决策框架下的公平性问题,采用“相似个体应受到相似对待”的公平性框架,使用平滑度约束和公平性遗憾度量实现公平性,研究表明 Thompson sampling 等算法可以实现平滑公平性,且在公平性遗憾上有$ ilde{O}((kT)^{2/3})$的上界。
Jul, 2017
研究公平多臂老虎机问题中学习与公平之间的相互作用,通过特定向量表示公平性约束,定义一个公平感知的后悔,通过两个参数刻画一个 Fair-SMAB 算法类,并提供一个公平保证,无论学习算法的选择是什么,都可以持续地适用。
May, 2019
本文研究了具有凹奖励的情境强化学习(CBCR)问题,提出了第一个不限政策空间并能使后悔可控的算法;通过把CBCR算法几何地解释为期望奖励的凸集上的优化算法,有了一种从CBCR后悔到标量奖励强化学习后悔的新方法, 并给出了在排名和公平性限制下CBCR的解法。
Oct, 2022
本文探讨了在不观察个体保护属性的情况下,使用不同质量的数据源估算这些属性以降低公平惩罚的在线分配问题,并提出了一种在多臂赌博问题的框架下同时解决两个问题的算法,该算法可以适应多种不同的公平概念,并且在一些情况下可以学习使用的估计值。
Jun, 2023
深入研究了公平性,提出了一种基于两个层次的公平性方法,保证每个组的最小曝光,并确保组内每个单元根据其优越性被拉动;通过提出的算法 BF-UCB,实现了对遗憾的上界为 O(√T) 的平衡,同时提供更好的组和个体曝光保证,并且不会显著降低奖励。
Feb, 2024
本研究针对在线公平分配中的多个代理人问题,旨在解决现有算法在用户数量庞大且每个用户仅使用少量服务时所面临的效用估计困难。通过引入情境乐队模型,本文提出了保证亚线性遗憾的在线公平分配算法,实验结果验证了所提算法在不同性能方面的优势。
Aug, 2024