关键词direct preference optimization
搜索结果 - 66
  • 大型语言模型的多参考偏好优化
    PDFa month ago
  • 三元偏好优化:在单步优化中用更少的数据实现更好的对齐
    PDFa month ago
  • Mallows-DPO: 用偏好离散来优化您的 LLM
    PDFa month ago
  • SimPO: 简单无参考奖励优化
    PDFa month ago
  • 课程定向优化策略:扩散和一致性模型
    PDFa month ago
  • 量化和优化基于人物的角色扮演中的全球忠实度
    PDF2 months ago
  • MoDiPO: 通过 AI 反馈驱动的直接偏好优化实现文本到动作对齐
    PDF2 months ago
  • 蒙特卡洛树搜索通过迭代偏好学习提高推理能力
    PDF2 months ago
  • DPO 相遇 PPO:针对 RLHF 的强化标记优化
    PDF2 months ago
  • 对 DPO 及其变种在多个任务中的对齐研究
    PDF2 months ago
  • 滤波直接优化偏好
    PDF2 months ago
  • 从 $r$ 到 $Q^*$:您的语言模型暗地里是一个 Q 函数
    PDF3 months ago
  • 自监督视觉偏好对齐
    PDF3 months ago
  • 了解您的参考模型以实现良好对齐
    PDF3 months ago
  • 华南亚地区的大型多语言语言模型:指南
    PDF3 months ago
  • SambaLingo: 教授大型语言模型新语言
    PDF3 months ago
  • 分析和理解 DPO 的局限性:理论视角
    PDF3 months ago
  • 直接优化语言模型奖励的视频大型多模态模型
    PDF3 months ago
  • 使用合成偏好数据对语言模型进行可配置的安全调整
    PDF3 months ago
  • 混合偏好优化:通过数据选择和更好的参考模型进行强化学习
    PDF3 months ago