AAAIJan, 2024

具有策略预算的个性化强化学习

TL;DR个性化机器学习中,我们提出了一种名为 r-MDPs 的框架,通过与一小组代表性策略的交互来满足多样化的用户群体,并同时优化这些策略以最大化整体社会福利。通过两种深度强化学习算法,我们在多个模拟环境中进行了实证研究,展示了这些算法在有限的策略预算下实现有意义的个性化,并具有可扩展性,能够适应更大的策略预算。