Jul, 2024

通过预测其他学习者的行为在多智能体环境中最大化效用

TL;DR在本论文中,我们研究了多次重复的两人博弈情境中,涉及学习算法和优化算法的两种类型代理者的决策互动,提供了针对Replicator Dynamics和Multiplicative Weights Update(MWU)的优化算法,以及涉及MWU的离散时间设置的平均效用保证,但未解决P=NP时的多项式时间近似以及优化到$o(T)$效用的算法问题。