关键词surrogate objective
搜索结果 - 3
  • 限制下的强化学习中的反馈安全性
    PDF8 days ago
  • 上下文优化在协变量漂移下的鲁棒方法:通过相交的 Wasserstein 球
    PDFa month ago
  • PPO 算法中可能不需要使用比率剪裁
    PDF2 years ago
Prev
Next