Jun, 2024

利用隐含背景完成 Pareto 最优偏好学习

TL;DR通过使用 Pareto Optimal Preference Learning (POPL) 模型,借助于 Lexicase 筛选过程,本研究实证评估表明 POPL 在学习奖励函数方面超过基线方法,有效满足不同的群体需求,并确保包容和公平的人工智能模型对齐。