Apr, 2025
更好的语言模型间KL散度估计
Better Estimation of the KL Divergence Between Language Models
TL;DR本研究聚焦于语言模型之间KL散度估计的高方差问题,尤其是在传统的采样基础估计方法中的不足。我们提出了一种Rao-Blackwell化估计器,它在保持无偏性的同时,具有低于标准蒙特卡洛估计器的方差。实证研究表明,该估计器在情感控制的微调中显著提高了KL估计的稳定性,同时我们还推导了KL散度梯度的类似估计器,进一步改善了训练稳定性。