Jun, 2023

基于偏好的语言模型微调的令牌级指导

TL;DR本文提出了一种新的训练语言模型的方式,通过将序列级别的偏好导向到令牌级别的训练中,然后再利用所学到的指导来改善LM,实现在不同任务中的竞争性表现。