关键词reward overoptimization
搜索结果 - 4
  • ICLR细调文本 - 图像模型的自信度感知奖励优化
    PDF3 months ago
  • LLM 对齐的贝叶斯奖励模型
    PDF5 months ago
  • 通过信息论奖励建模减轻奖励作弊
    PDF5 months ago
  • 面对扩散模型中的奖励过优化:归纳和初要偏见的视角
    PDF5 months ago
Prev
Next