Jun, 2024

公平稳定的在线分配的主动学习

TL;DR我们探索了一种用于动态公平资源分配问题的主动学习方法,该方法假设在在线资源分配过程的每个时期,仅从选择的代理人子集中获取反馈。尽管存在这种限制,我们提出的算法在包括资源分配问题中常用的公平度量和匹配机制中的稳定性考虑等各种度量中,提供了与时间周期数次线性相关的后悔界限。我们算法的关键洞察在于通过利用对决性的上限和下限置信区间来自适应地识别最具信息量的反馈。通过这种策略,我们证明高效的决策不需要大量的反馈,并为各种问题类别产生高效的结果。