关键词uncertainty-penalized rlhf
搜索结果 - 1
  • 基于不确定性惩罚的多样化奖励 LoRA 集成的人类反馈强化学习
    PDF6 months ago
Prev
Next