EMNLPMay, 2022
使用 KL 惩罚的强化学习更适合视为贝叶斯推断
RL with KL penalties is better viewed as Bayesian inference
Tomasz Korbak, Ethan Perez, Christopher L Buckley
TL;DR本文旨在分析强化学习如何应用于微调大型语言模型,研究 KL-regularized 强化学习的表现和原理,并论证 RL 并非是微调语言模型的最佳框架,而语言模型的微调应该被看做贝叶斯推断的问题。