具有分步公平约束的强化学习
研究强化学习中的公平性问题,探讨算法选择对环境和未来奖励的影响,提出公平性约束条件,尽管该条件与最优策略一致,但满足公平性的学习算法必须花费时间指数级才能达到对最优策略的非平凡逼近,提出在近似公平性约束下的多项式时间算法,从而建立了精确公平性和近似公平性之间的指数差距。
Nov, 2016
研究了如何在自主系统操作中考虑公平性,并提出一种基于深度强化学习的公平策略学习框架,应用于多个领域中,包括折扣回报和平均回报算法。
Aug, 2020
本文介绍了使用深度强化学习方法来优化决策的长期公平性,通过比较三个案例,结果表明,我们的方法可以通过正则化不同动作的优势评估来轻松实现公平性约束而不需要奖励工程或牺牲训练效率。
Oct, 2022
本文提出了一种在在线强化学习中形式化长期公平的方法;该方法可以适应不同的控制目标,通过牺牲短期激励来推动分类器-人群系统朝着更理想的均衡状态发展,从而在损失和公平违规之间实现同时概率边界的算法。
Apr, 2023
本文提出了一种基于强化学习和在线凸优化的方法来实现多智能体系统中的公平性,在保证植树的情况下为不同智能体提供公平奖励。该方法能够在未知环境中实现公平,并在实验中得到了验证。
Jun, 2023
在这篇论文中,我们提出了一个新的框架,用于在动态系统中实现长期群体公平性,即使在政策设计过程中已经考虑了公平性。我们通过使用时间齐次马尔可夫链对系统动态进行建模,并利用马尔可夫链收敛定理优化政策,确保独特的收敛性。我们给出了一些系统的不同目标公平状态的示例,并展示了我们的方法如何在长期和收敛之前评估不同目标对群体条件人口分布的影响和演化。
Nov, 2023
在这篇论文中,我们研究了在顺序决策中存在着动态系统的公平性问题,提出了一个基于马尔可夫决策过程的算法框架,通过预处理和处理中方法集成各种公平性考虑,平衡传统公平性、长期公平性和效用。
Jan, 2024
通过因果关系的分析,我们探讨了强化学习问题中不公平性产生的根源,并提出一种明确捕捉环境动态引发的不公平性的新概念,以解释、检测和减少强化学习中的不平等。
Apr, 2024
在本文中,我们调研了相关文献,提供了公平强化学习领域最新的发展概况。我们首先回顾了公平在强化学习中可能出现的情况,然后讨论了到目前为止提出的各种公平定义。接着,我们突出了研究人员在单智能体和多智能体强化学习系统中实现公平的方法论,并展示了公平强化学习在不同应用领域的研究成果。最后,我们对文献中的问题进行了批判性的分析,如公平性在RLHF上的理解,这些问题需要在未来的工作中解决,以真正使公平强化学习在实际系统中得以应用。
May, 2024