May, 2024

在线合并优化器用于提升回报和降低税额的对齐

TL;DR通过在线合并优化器,在人类反馈强化学习中持续调节训练方向,实现大语言模型的高性能表现和对齐奖励的显著提升,同时减小对齐成本。