Feb, 2024
DeAL: 大型语言模型解码时间对齐
DeAL: Decoding-time Alignment for Large Language Models
James Y. Huang, Sailik Sengupta, Daniele Bonadiman, Yi-an Lai, Arshit Gupta...
TL;DR提出了一种名为 DeAL 的框架,通过自定义奖励函数和解码时对齐来改善大型语言模型的对齐目标,弥补模型训练中的残缺缺陷,并探讨了与关键字约束和长度约束等程序约束以及有益和无害等抽象目标进行实验的有效性。