Jun, 2024

从分布到 Overton 多元主义:研究大型语言模型的对齐问题

TL;DR对语言模型执行对齐过程会改变其输出分布的多个属性。研究分析了语言模型响应的对齐后分布漂移的两个方面,发现对齐过程抑制了无关和无用的内容,将输出分布转向覆盖基础语言模型中多个响应的信息,从而在单个响应中提供多样化的信息。此外,研究还表明基础模型可以通过上下文示例和低分辨率的语义提示来产生与对齐模型相似的响应,进一步证明了对齐技术对基础语言模型的有用行为进行了捕捉,切实模拟了对齐后的语言模型响应,而无需进行精细调整。