关键词on-policy sampling
搜索结果 - 2
  • 在线和离线配准算法之间性能差距的理解
    PDF2 months ago
  • LLM 的偏好微调应利用次优的,符合策略的数据
    PDF3 months ago
Prev
Next