Jul, 2024

变分最优N对齐

TL;DR通过Fine-tuning语言模型,最小化KL散度以逼近BoN算法的分布,使得推理时间效率提升N倍,并且在奖励和KL散度的Pareto前沿上实现了良好的性能。