Apr, 2024

大规模语言模型的潜在距离指导对齐训练

TL;DR使用无需标注的注解方法,Latent Distance Guided Alignment Training (LD-Align) 利用生成的潜在空间对大型语言模型进行对齐训练,通过潜在空间中样本对之间的距离来引导对齐训练。经过广泛实验和评估,我们的方法在实现显著对齐方面表现出很高的效果。