关键词reward modeling
搜索结果 - 15
- DogeRM: 通过模型合并为奖励模型提供领域知识PDF3 days ago
- 关于奖励模型、参数更新和上下文提示的变换PDF10 days ago
- PAL:异构偏好学习的多元对齐框架PDF22 days ago
- Xwin-LM:强大且可扩展的 LLM 对齐实践PDFa month ago
- 从图论的角度重新思考强化学习及高阶函数中的信息结构:奖励的概括PDF5 months ago
- 通过信息论奖励建模减轻奖励作弊PDF5 months ago
- 大型语言模型对齐的多样化偏好PDF7 months ago
- 强化学习中的主动教师选择PDF8 months ago
- 理解从人类偏好中学习的一般理论范式PDF9 months ago
- 工具辅助奖励建模PDF9 months ago
- 和谐世界模型:提高基于模型的强化学习的样本效率PDF9 months ago
- 通过合成反馈对齐大型语言模型PDFa year ago
- 不完美也值得奖励:面向更好对话管理的多层次和序列奖励建模PDF3 years ago
- 通过奖励建模实现可扩展的智能体协调方向研究PDF6 years ago
- NIPS基于转移的提及检测的强化学习PDF7 years ago
Prev
Next