关键词preference dataset
搜索结果 - 6
- 迭代纳什策略优化:通过无悔学习使 LLMs 与一般偏好相一致PDF6 days ago
- 传奇:利用表征工程为偏好数据集标注安全边界PDF24 days ago
- 通过系统消息概括与数千个偏好进行对齐PDFa month ago
- 多模态大语言模型是文本到图像生成的人类对齐标注器PDF2 months ago
- Tango 2:通过直接偏好优化对齐基于扩散的文本到音频生成PDF3 months ago
- 超级反馈:通过高质量反馈提升语言模型PDF9 months ago
Prev
Next