BriefGPT.xyz
Ask
alpha
关键词
online merging optimizer
搜索结果 - 1
在线合并优化器用于提升回报和降低税额的对齐
通过在线合并优化器,在人类反馈强化学习中持续调节训练方向,实现大语言模型的高性能表现和对齐奖励的显著提升,同时减小对齐成本。
PDF
a month ago
Prev
Next