关键词reinforcement learning from human feedback
搜索结果 - 109
  • LLM 批评家助力捕捉 LLM 漏洞
    PDF6 days ago
  • PopAlign: 公平文本到图像生成的人口层次对齐
    PDF6 days ago
  • 直接对齐中的平均对数似然
    PDF7 days ago
  • ARES:交替强化学习和监督微调,通过多样化的 AI 反馈提升多模态链式思维推理
    PDF9 days ago
  • 为奖励建模实现全面偏好数据收集
    PDF10 days ago
  • SAIL:大型语言模型的自我改进高效在线对齐
    PDF13 days ago
  • ReaLHF:通过参数重分配优化大型语言模型的 RLHF 训练
    PDF14 days ago
  • 通过两人博弈实现最佳 LLM 对齐
    PDF18 days ago
  • 数学推理的步骤级价值优化
    PDF18 days ago
  • 奖励和策略模型在强化学习中的无缝衔接探讨
    PDF22 days ago
  • 对基于单词奖励引导的文本生成进行批判性研究
    PDF22 days ago
  • 自博弈对抗评论家:可证明和可扩展的离线对齐语言模型
    PDFa month ago
  • 直接对齐算法中奖励模型过度优化的尺度规律
    PDFa month ago
  • 缓解奖励过度优化的可扩展集成方法
    PDFa month ago
  • 学习澄清:基于行动对比自我训练的多轮对话
    PDFa month ago
  • 语言模型的直接对齐通过质量感知的自我优化
    PDFa month ago
  • 指令 CP:将大型语言模型快速转换为目标语言
    PDFa month ago
  • 自我探索的语言模型:在线对齐的主动偏好引导
    PDFa month ago
  • 在线合并优化器用于提升回报和降低税额的对齐
    PDFa month ago
  • 通过多透视用户偏好排名反馈对齐 LLMs 的编程问题回答
    PDFa month ago
Prev