EMNLPMay, 2022

使用 KL 惩罚的强化学习更适合视为贝叶斯推断

TL;DR本文旨在分析强化学习如何应用于微调大型语言模型,研究 KL-regularized 强化学习的表现和原理,并论证 RL 并非是微调语言模型的最佳框架,而语言模型的微调应该被看做贝叶斯推断的问题。