BriefGPT.xyz
Ask
alpha
关键词
pareto optimal preference learning
搜索结果 - 1
利用隐含背景完成 Pareto 最优偏好学习
通过使用 Pareto Optimal Preference Learning (POPL) 模型,借助于 Lexicase 筛选过程,本研究实证评估表明 POPL 在学习奖励函数方面超过基线方法,有效满足不同的群体需求,并确保包容和公平的
→
PDF
15 days ago
Prev
Next