May, 2024

迁移 Q-Star:面向 LLM 对齐的原理解码

TL;DR利用转移学习方法的 Transfer Q * 技术在最优 Q - 函数的缺失情况下,通过对齐基线奖励与基线模型来间接估计目标奖励的最优值函数,有效减小了先前方法中存在的次优解的差距,并在多个合成和真实数据集上证明了其卓越的实证性能。