Jul, 2024

正向强化学习的序列多智能体选择中的长期公平性

TL;DR研究了在多个代理人从共同申请人池中选择的情况下,多代理人公平贪心策略的 long-term fairness 目标集收敛性,并通过合成和适应现实世界数据集提供了实证证据,同时指出在更复杂的申请人池演化模型中,若代理人不协调行动可能会导致负反馈,降低少数群体的申请人比例。