Nov, 2023

强化学习微调语言模型对更可提取特征有偏向性

TL;DR通过控制实验,我们发现大型语言模型在自我监督预训练和强化学习微调阶段对于特征提取的归纳偏好在一定程度上一致,并且这些偏好与特征的利用程度和重要性具有显著相关性。