通过强化学习在动态系统中找到公平性的平衡点

Jan, 2024

通过强化学习在动态系统中找到公平性的平衡点

Striking a Balance in Fairness for Dynamic Systems Through Reinforcement Learning

Yaowei Hu, Jacob Lear, Lu Zhang

TL;DR在这篇论文中，我们研究了在顺序决策中存在着动态系统的公平性问题，提出了一个基于马尔可夫决策过程的算法框架，通过预处理和处理中方法集成各种公平性考虑，平衡传统公平性、长期公平性和效用。

Abstract

While significant advancements have been made in the field of fair machine learning, the majority of studies focus on scenarios where the decision model operates on a static population. In this paper, we study fairness in dynamic systems where sequential decisions are made. Each decision may shift the underlying distribution of features or user behavior. We

fair machine learning dynamic systems markov decision process algorithmic framework reinforcement learning

发现论文，激发创造

利用强化学习在多智能体马尔科夫决策过程中实现公平

本文提出了一种基于强化学习和在线凸优化的方法来实现多智能体系统中的公平性，在保证植树的情况下为不同智能体提供公平奖励。该方法能够在未知环境中实现公平，并在实验中得到了验证。

Jun, 2023

未知动态下的长期公平性

本文提出了一种在在线强化学习中形式化长期公平的方法；该方法可以适应不同的控制目标，通过牺牲短期激励来推动分类器 - 人群系统朝着更理想的均衡状态发展，从而在损失和公平违规之间实现同时概率边界的算法。

Apr, 2023

决策系统长期公平性的优势正则化策略优化

本文介绍了使用深度强化学习方法来优化决策的长期公平性，通过比较三个案例，结果表明，我们的方法可以通过正则化不同动作的优势评估来轻松实现公平性约束而不需要奖励工程或牺牲训练效率。

Oct, 2022

不公平背后的原因：探索强化学习中的公正动态

通过因果关系的分析，我们探讨了强化学习问题中不公平性产生的根源，并提出一种明确捕捉环境动态引发的不公平性的新概念，以解释、检测和减少强化学习中的不平等。

Apr, 2024

序贯决策中的公平算法

本文提出了一种基于 Markov 决策过程的反馈效应建模的方法，通过学习算法来实现公平的决策过程，并通过贷款申请 MDP 的模拟，证明了考虑动态影响的必要性。

Jan, 2019

实时决策的长期公平性：一种受限在线优化方法

通过引入一个名为 LoTFair 的在线算法，本研究提出了一个框架，用于在具有时间变化公平性约束的动态决策系统中确保长期公平性。研究证明，LoTFair 可以在保持长期性能的同时，使整体公平性违规变得微不足道。

Jan, 2024

强化学习中的公平性调查

在本文中，我们调研了相关文献，提供了公平强化学习领域最新的发展概况。我们首先回顾了公平在强化学习中可能出现的情况，然后讨论了到目前为止提出的各种公平定义。接着，我们突出了研究人员在单智能体和多智能体强化学习系统中实现公平的方法论，并展示了公平强化学习在不同应用领域的研究成果。最后，我们对文献中的问题进行了批判性的分析，如公平性在 RLHF 上的理解，这些问题需要在未来的工作中解决，以真正使公平强化学习在实际系统中得以应用。

May, 2024

推荐系统中的长期公平性

本文提出了一种用于动态公平学习的约束强化学习算法，通过将推荐问题建模为约束马尔可夫决策过程，以解决推荐系统中长期公平性的问题。实验结果表明，该算法在推荐性能、短期公平性和长期公平性方面均具有优越性。

Jan, 2021

动态系统中的公平因果模型

本文介绍因果有向无环图作为公平性动态系统研究的一个统一框架，阐明了因果假设如何表达和操作，说明了计算干预数量的重要性，并说明了因果假设能够在已知环境动态的情况下进行模拟和在未知动态下进行干预估计，以实现对短期和长期结果的干预，无论是在群体还是个人的层面上。

Sep, 2019

面向公平性的共享微移动服务的运营和控制的强化学习方法

在共享微移动服务的运营和控制中，通过 Q 学习算法在机器学习系统中平衡性能优化与算法公平性，以实现在不同站点类别中的公平结果。

Mar, 2024