BriefGPT.xyz
Ask
alpha
关键词
controllable preference optimization
搜索结果 - 1
可控偏好优化:朝着可控的多目标对齐
通过引入可控偏好优化(CPO),我们可以实现模型响应满足不同目标需求的对齐模型,并在多目标对齐中获得 Pareto 改进。
PDF
4 months ago
Prev
Next