关键词learned reward functions
搜索结果 - 3
  • 使用稀疏自编码器解释 RLHF 调整的语言模型中的奖励模型
    PDF9 months ago
  • 语言奖励调节预训练强化学习
    PDFa year ago
  • 学习奖励函数的动态感知比较
    PDF2 years ago
Prev
Next