May, 2024

AI 对齐的公理

TL;DR基于社会选择理论,在强化学习中的人类反馈背景下,通过人类进行的成对比较推导出奖励函数,我们提出了一种具有强公理保证的学习奖励函数的创新规则,利用线性社会选择的新范式限制了可行规则空间。