关键词preference learning
搜索结果 - 42
  • 超越对齐:针对大型语言模型的原子偏好增强的真实性调整
    PDF14 days ago
  • 大型语言模型人类偏好学习综述
    PDF15 days ago
  • 正则化隐藏状态实现学习面向通用化奖励模型的长期记忆模型
    PDF18 days ago
  • PLUM: 偏好学习加测试用例产生更好的代码语言模型
    PDF21 days ago
  • Diffusion-RPO:通过相对偏好优化对齐扩散模型
    PDF22 days ago
  • 用自动生成的偏好数据对齐大型语言模型
    PDFa month ago
  • 蒙特卡洛树搜索通过迭代偏好学习提高推理能力
    PDF2 months ago
  • CVPR探索人类偏好的文本生成动作
    PDF3 months ago
  • 推进具有偏好树的 LLM 推理通才
    PDF3 months ago
  • 从视觉演示中学习偏好概念
    PDF3 months ago
  • 利用高斯过程从偏好和选择中学习的教程
    PDF3 months ago
  • 基于语言模型的贝叶斯偏好引导
    PDF4 months ago
  • CURATRON:大型语言模型鲁棒对齐的完备偏好数据
    PDF4 months ago
  • 自适应偏好引导下的成本适应型补救推荐
    PDF4 months ago
  • 推广奖励建模以进行超出分布的偏好学习
    PDF4 months ago
  • 采用 RLHF 推进翻译偏好建模:迈向经济高效的解决方案
    PDF4 months ago
  • 奖励模型学习的偏好污染攻击
    PDF5 months ago
  • 偏好作为奖励,通过重要性采样进行最大偏好优化
    PDF6 months ago
  • 分布式偏好学习:理解并考虑 RLHF 中的隐藏语境
    PDF7 months ago
  • ULMA:统一语言模型对齐与演示与逐点人类偏好
    PDF7 months ago
Prev