Dec, 2023

RLHF 与 IIA:逆向激励

TL;DR现有的基于人类反馈的强化学习算法基于假设无关替代物的独立性,因此可能激励与偏好相悖的响应,并且当在查询格式或学习算法上进行创新时会导致严重的行为。