关键词kl regularization
搜索结果 - 4
  • WARP: 关于加权平均奖励策略的好处
    PDF12 days ago
  • 应用示范引导强化学习来对抗 LLM 中的奖励过度优化
    PDF2 months ago
  • 基于不确定性惩罚的多样化奖励 LoRA 集成的人类反馈强化学习
    PDF6 months ago
  • DPOK: 用强化学习对文本到图像扩散模型进行微调
    PDFa year ago
Prev
Next