BriefGPT.xyz
Ask
alpha
关键词
reward improvement
搜索结果 - 3
多目标解码时间语言模型对齐
多目标解码算法(MOD)通过线性组合基础模型的预测结果,在不同目标权重下输出下一个标记,实现语言模型(LMs)对多样用户需求的适应性优化,实验证明其在奖励改进和有害性减少方面具有显著效果。
PDF
13 days ago
大规模语言模型中的策略对齐信息论保证
大型语言模型的策略对齐是指在约束的策略优化中,通过优化策略来最大化奖励,同时与参考策略在 KL 散度等 f - 散度方面保持接近。文中证明了当参考策略的奖励具有亚高斯尾部时,策略对齐的奖励提升与参考策略之间的 KL 散度成平方根关系;对于最
→
PDF
a month ago
IJCAI
带惩罚项的近端优化安全强化学习
本论文提出惩罚近端策略优化 (P3O) 算法,通过一个等效的无约束问题的单次极小化来解决繁琐的受约束策略迭代,同时可以扩展至多约束和多智能体场景,实验表明该算法在一组有约束的机车任务上具有先进性能。
PDF
2 years ago
Prev
Next