Jun, 2024

语言模型自对弈在非零和博弈中的效果

TL;DR通过对《Deal or No Deal》协商游戏进行自我对弈,我们发现语言模型的自我对弈在合作与竞争方面都能显著提升性能,暗示了自我对弈和相关技术的潜力。