关键词reward models
搜索结果 - 32
  • 通用化类比:向难以衡量的领域推广人工智能监管的测试平台
    PDF8 months ago
  • 强化学习中偏好一致性的影响:摘要生成案例研究
    PDF8 months ago
  • 视觉语言模型是强化学习的零样本奖励模型
    PDF9 months ago
  • 通过约束强化学习高斯过程避免奖励模型过度优化
    PDF9 months ago
  • RLHF 中的长度相关性研究
    PDF9 months ago
  • ICLR奖励模型合集有助于缓解过度优化
    PDF9 months ago
  • 大型语言模型对词级扰动真的具有强健性吗?
    PDF10 months ago
  • 每个人都应该得到奖励:学习定制化的人类偏好
    PDF10 months ago
  • RLHF-Blender: 一个可配置的学习多样人类反馈的交互界面
    PDFa year ago
  • 对齐大型语言模型中奖励崩溃的研究
    PDFa year ago
  • 视觉语言模型作为成功检测器
    PDFa year ago
  • 通过建模奖励来学习理解目标规格
    PDF6 years ago
Next