未知动态下的长期公平性
通过引入一个名为 LoTFair 的在线算法,本研究提出了一个框架,用于在具有时间变化公平性约束的动态决策系统中确保长期公平性。研究证明,LoTFair 可以在保持长期性能的同时,使整体公平性违规变得微不足道。
Jan, 2024
在这篇论文中,我们研究了在顺序决策中存在着动态系统的公平性问题,提出了一个基于马尔可夫决策过程的算法框架,通过预处理和处理中方法集成各种公平性考虑,平衡传统公平性、长期公平性和效用。
Jan, 2024
通过因果关系的分析,我们探讨了强化学习问题中不公平性产生的根源,并提出一种明确捕捉环境动态引发的不公平性的新概念,以解释、检测和减少强化学习中的不平等。
Apr, 2024
研究论文通过使用时间因果图和不同人群干预分布之间的 1-Wasserstein 距离作为定量指标,以减少顺序决策系统中的群体差异,研究了长期公平的机器学习。然后,提出了一个三阶段的学习框架,其中决策模型在深度生成模型生成的高保真数据上进行训练,将优化问题制定为执行风险最小化,并采用了重复梯度下降算法进行学习。经验评估证明了所提出方法在合成和半合成数据集上的有效性。
Jan, 2024
本文介绍了使用深度强化学习方法来优化决策的长期公平性,通过比较三个案例,结果表明,我们的方法可以通过正则化不同动作的优势评估来轻松实现公平性约束而不需要奖励工程或牺牲训练效率。
Oct, 2022
在这篇论文中,我们提出了一个新的框架,用于在动态系统中实现长期群体公平性,即使在政策设计过程中已经考虑了公平性。我们通过使用时间齐次马尔可夫链对系统动态进行建模,并利用马尔可夫链收敛定理优化政策,确保独特的收敛性。我们给出了一些系统的不同目标公平状态的示例,并展示了我们的方法如何在长期和收敛之前评估不同目标对群体条件人口分布的影响和演化。
Nov, 2023
通过研究现有文献,本调查从不同角度回顾了长期公平性的研究,并提出了一个分类法。我们突出了一些关键挑战,考虑了未来的研究方向,分析了现有的问题和潜在的深入探索。
Jun, 2024
本文提供了动态策略,用于在多个时期中在社区之间重新分配有限资源以最大限度地实现公平性,并演示了其在撒哈拉以南国家的医疗保健和教育补贴设计中的可行性。研究表明,在考虑其他因素的情况下进行的妥协可能会促进社会结果的不平等。
Jun, 2022
研究强化学习中的公平性问题,探讨算法选择对环境和未来奖励的影响,提出公平性约束条件,尽管该条件与最优策略一致,但满足公平性的学习算法必须花费时间指数级才能达到对最优策略的非平凡逼近,提出在近似公平性约束下的多项式时间算法,从而建立了精确公平性和近似公平性之间的指数差距。
Nov, 2016
通过引入长期公平性约束到适应性损失后悔框架中,我们在不断变化的环境中解决了公平感知在线学习挑战,并提出了一种独特的后悔度量 FairSAR。此外,为了确定每个时间步的最优模型参数,我们引入了一种创新的自适应公平感知在线元学习算法 FairSAOML,该算法通过有效管理偏差控制和模型准确性来适应动态环境。该问题被构建为双层凸凹优化,考虑了模型的准确性和公平性属性,理论分析得出了损失后悔和公平性约束累积违规的次线性上界。我们在动态环境中的各种真实数据集上的实验评估表明,我们提出的 FairSAOML 算法始终优于基于最先进在线学习方法的替代方法。
Feb, 2024