Nov, 2023
强化学习微调语言模型对更可提取特征有偏向性
Reinforcement Learning Fine-tuning of Language Models is Biased Towards More Extractable Features
Diogo Cruz, Edoardo Pona, Alex Holness-Tofts, Elias Schmied, Víctor Abia Alonso...
TL;DR通过控制实验,我们发现大型语言模型在自我监督预训练和强化学习微调阶段对于特征提取的归纳偏好在一定程度上一致,并且这些偏好与特征的利用程度和重要性具有显著相关性。