关键词rewards-in-context (ric)
搜索结果 - 1
  • 上下文奖励:基于动态偏好调整的多目标基础模型对齐
    PDF5 months ago
Prev
Next