Jul, 2024

Q-Adapter: 将您的LLM适配器训练为残差Q函数

TL;DR本论文介绍了一种名为Q-Adapter的新方法,该方法通过在下游偏好数据上学习一个逼近残差Q-function的模块,以定制化预训练的大型语言模型(LLM),在多个任务和安全对齐任务的实验中展现了对防止遗忘和学习新偏好方面的卓越性能。