BriefGPT.xyz
Ask
alpha
关键词
transfer q*
搜索结果 - 1
迁移 Q-Star:面向 LLM 对齐的原理解码
利用转移学习方法的 Transfer Q * 技术在最优 Q - 函数的缺失情况下,通过对齐基线奖励与基线模型来间接估计目标奖励的最优值函数,有效减小了先前方法中存在的次优解的差距,并在多个合成和真实数据集上证明了其卓越的实证性能。
PDF
a month ago
Prev
Next