关键词preference feedback
搜索结果 - 10
- 对抗性多路决斗者PDF16 days ago
- ICML离线强化学习中基于示例的最优订单界限与偏好反馈PDF16 days ago
- 从自我参照 AI 反馈中对齐大型语言模型的一个通用原则PDF17 days ago
- DPO 和 PPO 的剥离:揭示从偏好反馈中学习的最佳实践PDF21 days ago
- 直接纳什优化:通过一般偏好教导语言模型自我改进PDF3 months ago
- 停止依赖无选择,不要重复移动:商品组合优化的最优、高效和实用算法PDF4 months ago
- AAAI借助多模态的大型语言模型增强机器人操作的人工智能反馈PDF4 months ago
- 基于原则的偏好贝叶斯优化PDF5 months ago
- 多方偏好加速收敛PDF6 months ago
- ACL充分利用之前的数据:交互式文本摘要的偏好反馈解决方案PDF2 years ago
Prev
Next