Jun, 2024
利用隐含背景完成 Pareto 最优偏好学习
Pareto-Optimal Learning from Preferences with Hidden Context
Ryan Boldi, Li Ding, Lee Spector, Scott Niekum
TL;DR通过使用 Pareto Optimal Preference Learning (POPL) 模型,借助于 Lexicase 筛选过程,本研究实证评估表明 POPL 在学习奖励函数方面超过基线方法,有效满足不同的群体需求,并确保包容和公平的人工智能模型对齐。