关键词reward hacking
搜索结果 - 10
  • 正则化的最佳 N 抽样以减轻语言模型对齐中的奖励欺骗
    PDF3 months ago
  • 通过占用度量规范化防止奖励攻击
    PDF4 months ago
  • 常识奖励的多任务逆强化学习
    PDF5 months ago
  • ODIN: 异构奖励减轻 RLHF 中的黑客攻击
    PDF5 months ago
  • WARM: 关于加权平均奖励模型的好处
    PDF5 months ago
  • 帮助还是群集?奖励模型集合缓解但无法消除奖励攻击
    PDF7 months ago
  • 弹性重置的语言模型对齐
    PDF7 months ago
  • 通过优势模型和选择性回放稳定强化学习
    PDF10 months ago
  • ICLR奖励错误规划的影响:映射和缓解不匹配的模型
    PDF2 years ago
  • NIPS反向奖励设计
    PDF7 years ago
Prev
Next