Nov, 2024

具有公平性保证的可扩展多目标强化学习:使用洛伦兹支配

TL;DR本文解决了多目标强化学习中的公平性与可扩展性之间的矛盾,提出了一种基于洛伦兹支配的新算法,能够在多目标问题中灵活地考虑公平性偏好。研究结果表明,该方法在西安和阿姆斯特丹的两大城市中的交通规划环境中,显著提高了相关政策的公平性和可扩展性。