May, 2022

无模型对手塑形

TL;DR本文提出了一种名为Model-Free Opponent Shaping(M-FOS)的方法,利用元学习在长周期博弈下进行对手塑造,解决通过算法塑造对手进行博弈中的困境,实验表明该方法在训练中充分利用其他算法,达到了社会最优结果,同时还能扩展到高维博弈场景。