基于偏好的强化学习中的公正性
本研究探讨了如何在多个目标之间实现公平的多目标强化学习,其中一个代理必须学习一种同时在矢量价值回报的多个维度上获得高回报的策略。我们采用期望福利最大化方法,通过某些非线性公平福利函数对长期累积回报的矢量进行建模。我们提供了 Q-learning 的新颖自适应方法,以学习为非线性福利函数进行优化。我们的算法可以被证明收敛,并且实验表明与线性标量化、最佳线性标量化混合或固定行动选择技术相比,在 Nash 社会福利目标方面,我们的方法表现出更好的效果。
Nov, 2022
本文提出了一种基于多目标强化学习的公平感知的推荐框架(MoFIR),能够以单参数表示形式学习所有可能偏好的最优推荐策略,并在多个真实推荐数据集上的实验中验证了其在公平指标和推荐度量方面的优越性。
Jan, 2022
本文提出了一种基于强化学习和在线凸优化的方法来实现多智能体系统中的公平性,在保证植树的情况下为不同智能体提供公平奖励。该方法能够在未知环境中实现公平,并在实验中得到了验证。
Jun, 2023
研究了如何在自主系统操作中考虑公平性,并提出一种基于深度强化学习的公平策略学习框架,应用于多个领域中,包括折扣回报和平均回报算法。
Aug, 2020
在涉及安全关键系统的众多强化学习问题中,平衡多个目标并同时满足严格的安全约束是一个关键挑战。为解决这个问题,我们提出了一个基于原始的框架,通过多目标学习和约束遵从性之间的策略优化来协调。我们的方法采用了一种新颖的自然策略梯度操作方法,用于优化多个强化学习目标,并克服不同任务之间冲突梯度,因为简单的加权平均梯度方向可能不利于特定任务的性能,原因在于不同任务目标的梯度不对齐。当出现硬约束违规时,我们的算法介入纠正策略以最小化违规。我们在表格设置中建立了理论收敛和约束违规保证。在具有挑战性的安全多目标强化学习任务上,我们提出的方法在实证上也优于先前最先进的方法。
May, 2024
本文提出了一种用于多目标强化学习的新算法,可以以一种无量纲的方式设置目标的偏好,并且通过学习行动分布和拟合参数策略来在高维实际机器人任务及模拟任务中展示了其有效性,从而找到一组非支配解空间。
May, 2020
本研究提出了一种新型的多目标强化学习算法 PD-MORL,该算法利用偏好作为指导来更新网络参数,并采用一种新的并行化方法来提高采样效率,可覆盖整个偏好空间,适用于连续机器人任务的可伸缩性更强,相较于以往方法具有更高曲线下面积并且可训练参数量更少。
Aug, 2022