关键词direct preference optimization
搜索结果 - 66
  • 基于步骤误差控制的 DPO:利用逐步误差提升数学推理
    PDF4 days ago
  • PopAlign: 公平文本到图像生成的人口层次对齐
    PDF6 days ago
  • Step-DPO:Step-wise 偏好优化长链推理的 LLMs
    PDF8 days ago
  • 学习提出有信息量的问题:利用偏好优化和期望信息增益增强 LLM
    PDF9 days ago
  • 语言代理的多轮偏好直接优化
    PDF13 days ago
  • mDPO: 多模态大型语言模型的条件偏好优化
    PDF17 days ago
  • 通过下采样 KL 散度消除直接偏好优化的有偏长度依赖
    PDF18 days ago
  • 数学推理的步骤级价值优化
    PDF18 days ago
  • 通过调整的直接偏好优化对语言模型进行知识编辑
    PDF20 days ago
  • 使用 DPO 隐式奖励进行自助式语言模型训练
    PDF20 days ago
  • 关于推荐的 Softmax 直接偏好优化
    PDF21 days ago
  • ContraSolver: 通过解决内部偏好矛盾自我对齐语言模型
    PDF21 days ago
  • 基于支持度的知识重写用于增强检索的语言建模
    PDF22 days ago
  • 3D - 属性:DPO 的挑战和前进路径
    PDF23 days ago
  • 直接偏好优化用于抑制放大的先前考试在放射学报告生成中
    PDF24 days ago
  • 在线 DPO:在线直接偏好优化与快慢追踪
    PDFa month ago
  • 步骤感知的偏好优化:在每个步骤中将偏好与去噪性能对齐
    PDFa month ago
  • 通过 AI 反馈直接偏好优化提升您自己的人像生成模型
    PDFa month ago
  • 通过奖励模型精华提高偏好鲁棒性优化
    PDFa month ago
  • 混合偏好优化:用辅助目标增强直接偏好优化
    PDFa month ago
Prev