Nov, 2023
从强盗反馈中学习公平分配
Learning Fair Division from Bandit Feedback
TL;DR通过使用双平均法,本研究解决了在不确定条件下学习在线公平分配的问题,其中中央规划者在不准确地了解代理方值或效用的情况下顺序分配物品。本研究提出了利用双平均法的包装算法,通过信息反馈逐步学习到到达物品的类型分布和代理方的值,从而实现了在线算法在具有加性效用的线性Fisher市场中渐进地达到最优的Nash社会福利。我们在Nash社会福利方面建立了遗憾界限,并通过合成和实证数据集实证验证了我们提出的算法的优越性能。