Jul, 2024

Q-Adapter: 将您的 LLM 适配器训练为残差 Q 函数

TL;DR本论文介绍了一种名为 Q-Adapter 的新方法,该方法通过在下游偏好数据上学习一个逼近残差 Q-function 的模块,以定制化预训练的大型语言模型 (LLM),在多个任务和安全对齐任务的实验中展现了对防止遗忘和学习新偏好方面的卓越性能。