关键词preference feedback
搜索结果 - 10
  • 对抗性多路决斗者
    PDF16 days ago
  • ICML离线强化学习中基于示例的最优订单界限与偏好反馈
    PDF16 days ago
  • 从自我参照 AI 反馈中对齐大型语言模型的一个通用原则
    PDF17 days ago
  • DPO 和 PPO 的剥离:揭示从偏好反馈中学习的最佳实践
    PDF21 days ago
  • 直接纳什优化:通过一般偏好教导语言模型自我改进
    PDF3 months ago
  • 停止依赖无选择,不要重复移动:商品组合优化的最优、高效和实用算法
    PDF4 months ago
  • AAAI借助多模态的大型语言模型增强机器人操作的人工智能反馈
    PDF4 months ago
  • 基于原则的偏好贝叶斯优化
    PDF5 months ago
  • 多方偏好加速收敛
    PDF6 months ago
  • ACL充分利用之前的数据:交互式文本摘要的偏好反馈解决方案
    PDF2 years ago
Prev
Next