关键词reward collapse
搜索结果 - 2
  • 连续时间扩散模型的熵正则控制微调
    PDF4 months ago
  • 对齐大型语言模型中奖励崩溃的研究
    PDFa year ago
Prev
Next