关键词reinforcement learning with human feedback
搜索结果 - 19
  • 基于策略和主动学习的经济高效的代理奖励模型构建
    PDF4 days ago
  • 迭代纳什策略优化:通过无悔学习使 LLMs 与一般偏好相一致
    PDF6 days ago
  • 毒害对 LLM 对齐的威胁是否真实存在?可能比你想象的更严重
    PDF19 days ago
  • 衡量 RLHF 中的代码完成功能的记忆化
    PDF19 days ago
  • 在线强盗学习伴随离线偏好数据
    PDF23 days ago
  • Mallows-DPO: 用偏好离散来优化您的 LLM
    PDFa month ago
  • 细调文本转语音扩散模型的强化学习
    PDFa month ago
  • 混合偏好优化:通过数据选择和更好的参考模型进行强化学习
    PDF3 months ago
  • DeAL: 大型语言模型解码时间对齐
    PDF5 months ago
  • ICLRUni-RLHF: 强化学习通用平台和基准套件与多样化人类反馈
    PDF5 months ago
  • 文本到图像生成的丰富人类反馈
    PDF7 months ago
  • 利用人类反馈对扩散模型进行微调,无需任何奖励模型
    PDF7 months ago
  • 基线分析奖励模型在分布转移下准确分析基础模型的能力
    PDF7 months ago
  • 关于使用人类反馈进行强化学习对大型语言模型的可利用性研究
    PDF8 months ago
  • 通过微调在 GPT-4 中移除 RLHF 保护
    PDF8 months ago
  • 成对近邻策略优化:利用相对反馈进行 LLM 对齐
    PDF9 months ago
  • 高效 RLHF:降低 PPO 的内存使用
    PDF10 months ago
  • 用奖励重新加权、重新选择和重新训练提升原型部分网络
    PDFa year ago
  • 用人类反馈的强化学习的社会影响视角
    PDFa year ago
Prev
Next