关键词reinforcement learning from ai feedback
搜索结果 - 4
  • 应用 RLAIF 用于轻量级 LLMs 中的 API 使用的代码生成
    PDF8 days ago
  • 你确定吗?重新排名:为更好的偏好数据集进行重复排名
    PDFa month ago
  • HRLAIF:通过 AI 反馈在开放域强化学习中的有用性和无害性改进
    PDF4 months ago
  • 利用强化学习从 AI 反馈中优化大型多模态视频模型
    PDF5 months ago
Prev
Next