多目标强化学习中的福利与公正

Nov, 2022

Welfare and Fairness in Multi-objective Reinforcement Learning

Zimeng Fan, Nianli Peng, Muhang Tian, Brandon Fain

TL;DR本研究探讨了如何在多个目标之间实现公平的多目标强化学习，其中一个代理必须学习一种同时在矢量价值回报的多个维度上获得高回报的策略。我们采用期望福利最大化方法，通过某些非线性公平福利函数对长期累积回报的矢量进行建模。我们提供了 Q-learning 的新颖自适应方法，以学习为非线性福利函数进行优化。我们的算法可以被证明收敛，并且实验表明与线性标量化、最佳线性标量化混合或固定行动选择技术相比，在 Nash 社会福利目标方面，我们的方法表现出更好的效果。

Abstract

We study fair multi-objective reinforcement learning in which an agent must learn a policy that simultaneously achieves high reward on multiple dimensions of a vector-valued reward. Motivated by the fair resource

fairness multi-objective reinforcement learning welfare maximization q-learning

发现论文，激发创造

基于偏好的强化学习中的公正性

本文研究多目标偏好强化学习中的公平性问题，并提出了一种新的公平性偏好强化学习方法 FPbRL，通过最大化广义基尼福利函数，学习与多个目标相关的向量奖励函数，并通过实验研究表明，该方法能够同时实现学习有效和公平的策略。

Jun, 2023

非线性福利感知战略学习

本文研究在存在战略个体行为的情况下的算法决策，其中使用机器学习模型作出对人类个体的决策，而后者可以战略性地调整自己的行为以改进其未来的数据。研究重点在于非线性设置，其中个体只能通过决策策略的本地信息来响应决策策略。同时考虑最大化决策者福利（模型预测准确性）、社会福利（战略行为导致的个体改进）和个体福利（机器学习对个体的低估程度）的目标。理论结果表明，仅仅最大化某些参与方的福利必然会减少其他方的福利，因此我们认为在非线性设置中平衡各方福利是必要的，并提出了一种适用于一般战略学习的不可缩减优化算法。通过对合成数据和真实数据的实验证实了所提算法。

May, 2024

高社会福利纳什均衡的规范导向学习

本文提出了一种用于训练多智能体系统中的纳什均衡的强化学习框架，该框架利用高级规定来编码目标，并优先考虑多智能体系统的社会福利，经验评估表明，相对于现有方法，本算法计算的纳什均衡策略具有更高的社会福利。

Jun, 2022

社会福利的自适应最大化

旨在最大化社会福利，我们研究重复选择政策的问题，由私人效用和公共收入构成的加权和。通过实验证明，我们获得了与误差下界相匹配的上界，表明福利最大化比多臂赌博问题更困难，且我们的算法实现了最佳速率。

Oct, 2023

具有可证明保证的非线性多目标强化学习

RA-E3 是一个算法，能够解决单目标或多目标的马尔可夫决策过程中的奖励积累函数期望值最大化问题，并且可以用于多目标强化学习中的公平感知、风险感知以及以非线性 Von Neumann-Morgenstern 效用函数进行的单目标强化学习。该算法基于扩展的非线性优化 Bellman 最优性，明确考虑了时间和当前累积奖励，并通过多项式时间教学学习一个近似最优策略。

Nov, 2023

利用强化学习在多智能体马尔科夫决策过程中实现公平

本文提出了一种基于强化学习和在线凸优化的方法来实现多智能体系统中的公平性，在保证植树的情况下为不同智能体提供公平奖励。该方法能够在未知环境中实现公平，并在实验中得到了验证。

Jun, 2023

强化学习中的公正性

研究强化学习中的公平性问题，探讨算法选择对环境和未来奖励的影响，提出公平性约束条件，尽管该条件与最优策略一致，但满足公平性的学习算法必须花费时间指数级才能达到对最优策略的非平凡逼近，提出在近似公平性约束下的多项式时间算法，从而建立了精确公平性和近似公平性之间的指数差距。

Nov, 2016

多目标策略优化的分布式视角

本文提出了一种用于多目标强化学习的新算法，可以以一种无量纲的方式设置目标的偏好，并且通过学习行动分布和拟合参数策略来在高维实际机器人任务及模拟任务中展示了其有效性，从而找到一组非支配解空间。

May, 2020

多目标推荐的多元策略学习

多目标权衡时，推荐系统中的标量化方法决定最终用于排序的加权平均奖励信号，本研究对该方法进行了扩展以优化长期用户保留或增长的综合奖励，使用连续多元动作空间的策略学习方法，并提出了修正措施，通过模拟、离线和在线实验验证了方法的有效性。

May, 2024

使用平均和折扣奖励的多目标（深度）强化学习中学习公平策略

研究了如何在自主系统操作中考虑公平性，并提出一种基于深度强化学习的公平策略学习框架，应用于多个领域中，包括折扣回报和平均回报算法。

Aug, 2020