关键词value-incentivized preference optimization
搜索结果 - 1
  • 价值激励偏好优化:在线和离线 RLHF 的统一方法
    PDFa month ago
Prev
Next