Feb, 2024
对齐器:通过弱到强的校正实现高效对齐
Aligner: Achieving Efficient Alignment through Weak-to-Strong Correction
TL;DR通过强化学习从人类反馈中对齐大型语言模型的努力,介绍了一种新的高效对齐方式Aligner,通过学习对齐与未对齐答案之间的校正残差,绕过了强化学习过程,通过有监督学习在查询-答案-校正数据集上训练的自回归seq2seq模型实现了参数高效的对齐解决方案,可以将强大的预训练模型通过Aligner的监督信号进行微调,进而应用于不同的开源和API-based模型。此外,Aligner提供了很大的性能提升,如对11种不同的LLMs平均提升18%的有用性和23%的无害性(GPT-4提升26.9%和17.5%),对Llama2-70B使用Aligner-7B的监督进行微调,可以提高Llama2的有用性8.2%和无害性61.6%。