Feb, 2024

语言模型的解码时间对齐

TL;DR对减少语言模型中的错误和偏见,与人类偏好进行对齐至关重要。我们提出解码时重新对齐(DeRa)的简单方法,用于探索和评估不同的规则化强度,从而在不重新训练的情况下实现对齐模型的规则化强度的控制,并提高超参数调优的效率。