Apr, 2024

自我博弈语言模型的正则化研究

TL;DR本文研究了在自我对抗的语言模型对齐环境中,各种正则化形式的效果。通过将参照策略与基本策略几何混合,我们提出了 KL(Kullback-Leibler)正则化方法以解决 SPIN(自我对抗 fine-tuning)学习阶段的性能不稳定问题,并通过采用虚构博弈的思想来平滑对手策略。我们还通过在 MT-Bench 和 Hugging Face Open LLM Leaderboard 上进行实证研究来验证我们的方法。