关键词reward modeling
搜索结果 - 15
  • DogeRM: 通过模型合并为奖励模型提供领域知识
    PDF3 days ago
  • 关于奖励模型、参数更新和上下文提示的变换
    PDF10 days ago
  • PAL:异构偏好学习的多元对齐框架
    PDF22 days ago
  • Xwin-LM:强大且可扩展的 LLM 对齐实践
    PDFa month ago
  • 从图论的角度重新思考强化学习及高阶函数中的信息结构:奖励的概括
    PDF5 months ago
  • 通过信息论奖励建模减轻奖励作弊
    PDF5 months ago
  • 大型语言模型对齐的多样化偏好
    PDF7 months ago
  • 强化学习中的主动教师选择
    PDF8 months ago
  • 理解从人类偏好中学习的一般理论范式
    PDF9 months ago
  • 工具辅助奖励建模
    PDF9 months ago
  • 和谐世界模型:提高基于模型的强化学习的样本效率
    PDF9 months ago
  • 通过合成反馈对齐大型语言模型
    PDFa year ago
  • 不完美也值得奖励:面向更好对话管理的多层次和序列奖励建模
    PDF3 years ago
  • 通过奖励建模实现可扩展的智能体协调方向研究
    PDF6 years ago
  • NIPS基于转移的提及检测的强化学习
    PDF7 years ago
Prev
Next