关键词overoptimization
搜索结果 - 4
  • 基于不确定性惩罚的多样化奖励 LoRA 集成的人类反馈强化学习
    PDF6 months ago
  • 通过约束强化学习高斯过程避免奖励模型过度优化
    PDF9 months ago
  • ICLR奖励模型合集有助于缓解过度优化
    PDF9 months ago
  • 分类好哈特定律的变体
    PDF6 years ago
Prev
Next