BriefGPT.xyz
Ask
alpha
关键词
conservative optimization
搜索结果 - 1
ICLR
奖励模型合集有助于缓解过度优化
使用集合基的保守优化目标,能够在强化学习中有效抑制频繁优化,提高性能。
PDF
9 months ago
Prev
Next