关键词rlhf
搜索结果 - 27
  • 不需要奖励推断的人类反馈强化学习:无模型算法与实例相关分析
    PDF25 days ago
  • 超越模型崩溃:通过合成数据实现规模扩展需要加强
    PDF25 days ago
  • ACL评估大型语言模型在角色导向生成中的偏见
    PDFa month ago
  • 偏好学习算法不学习偏好排序
    PDFa month ago
  • 使用未观测到的偏好异质性进行直接偏好优化
    PDFa month ago
  • OpenRLHF:一个易于使用、可扩展和高性能的 RLHF 框架
    PDF2 months ago
  • MM-PhyRLHF: 多模态物理问答的强化学习框架
    PDF3 months ago
  • OpenBezoar: 小型、经济高效且开放式模型用于混合指导数据训练
    PDF3 months ago
  • ACL通过细粒度自我反思实现强化学习(RLRF):对齐和改进 LLMs
    PDF4 months ago
  • 使用强化学习训练大型语言模型进行推理
    PDF4 months ago
  • 探索拒绝损失地形的梯度手环:在大型语言模型上检测越狱攻击
    PDF4 months ago
  • 回归基础:重新评估 LLMs 中学习人类反馈的 REINFORCE 样式优化
    PDF4 months ago
  • 用直接原则反馈抑制粉色大象
    PDF5 months ago
  • 对齐大型语言模型的奖励转换与合并
    PDF5 months ago
  • 强化学习与人类反馈调查
    PDF6 months ago
  • 分布式偏好学习:理解并考虑 RLHF 中的隐藏语境
    PDF7 months ago
  • 基于上下文学习的重新思考对齐的解锁咒语
    PDF7 months ago
  • 基于主动探索的样本有效强化学习来自人类反馈
    PDF7 months ago
  • 统计反馈强化学习:从 AB 测试到 ANT 测试的演进
    PDF7 months ago
  • 人工智能对齐与社会选择:基本限制与政策影响
    PDF8 months ago
Prev