Feb, 2025
通过主成分分析重新思考多样化的人类偏好学习
Rethinking Diverse Human Preference Learning through Principal Component
Analysis
TL;DR本研究解决了传统奖励模型难以捕捉多样化和复杂的人类偏好的问题。提出了一种新的“分解奖励模型”(DRMs),通过二元比较提取人类偏好而无需精细注释,并利用主成分分析(PCA)对偏好进行向量表示和分析。研究表明,DRMs能够有效提取有意义的偏好维度,并适应新用户,可能为个性化和可解释的语言模型对齐提供强有力的框架。