BriefGPT.xyz
Ask
alpha
关键词
pessimistic statistic
搜索结果 - 1
缓解奖励过度优化的可扩展集成方法
使用共享编码器但独立的线性头部,以减小存储和训练时间开销,解决了语言模型在强化学习中的过度优化问题。
PDF
a month ago
Prev
Next