关键词language model alignment
搜索结果 - 8
- 探索性偏好优化:利用隐含的 Q * 近似进行样本高效的强化学习优化PDFa month ago
- 语言模型对齐的自我游戏偏好优化PDF2 months ago
- 自我博弈语言模型的正则化研究PDF3 months ago
- 语言模型对齐的渐近性PDF3 months ago
- 机器语言模型中对齐和有用性之间的权衡PDF5 months ago
- 改进奖励建模的西至 N: 合成优先性生成PDF5 months ago
- ULMA:统一语言模型对齐与演示与逐点人类偏好PDF7 months ago
- 前沿语言模型对敌对算术不具鲁棒性,或者说,我需要说些什么,让你同意 2+2=5?PDF8 months ago
Prev
Next