关键词direct preference optimization
搜索结果 - 66
  • sDPO:不要一次性使用您的数据
    PDF3 months ago
  • 多模态图像幻觉控制:视觉信息的连接
    PDF4 months ago
  • AGFSync: 利用 AI 生成的反馈进行文本到图像生成中的偏好优化
    PDF4 months ago
  • Curry-DPO: 借助课程学习和排序偏好增强对齐性
    PDF4 months ago
  • ICLR蛋白质语言模型的偏好优化作为多目标结合物设计范式
    PDF4 months ago
  • 奖励模型学习与直接策略优化:从人类偏好中学习的比较分析
    PDF4 months ago
  • 通过偏好微调来对齐视觉大型语言模型中的模态
    PDF5 months ago
  • 使用偏移量的直接偏好优化
    PDF5 months ago
  • 多模式偏好对齐解决语言模型视觉指导调整的回归
    PDF5 months ago
  • RS-DPO:一种用于大型语言模型对齐的混合拒绝抽样和直接偏好优化方法
    PDF5 months ago
  • 相对偏好优化:通过对相同和不同提示的对比响应来增强 LLM 对齐
    PDF5 months ago
  • 面向语言模型对齐的高效准确优化
    PDF5 months ago
  • PHOENIX: 开源的语言适应直接偏好优化
    PDF6 months ago
  • 使用反事实数据处理器调整大型语言模型
    PDF6 months ago
  • 比对算法的机制性理解:以 DPO 和毒性为案例研究
    PDF6 months ago
  • 偏好作为奖励,通过重要性采样进行最大偏好优化
    PDF6 months ago
  • Silkie:大型视觉语言模型的偏好蒸馏
    PDF7 months ago
  • 利用人类反馈对扩散模型进行微调,无需任何奖励模型
    PDF8 months ago
  • 直接偏好优化的扩散模型对齐
    PDF8 months ago
  • 基于最小贝叶斯风险解码的神经机器翻译直接偏好优化
    PDF8 months ago