independence of irrelevant alternatives | BriefGPT

关键词independence of irrelevant alternatives

搜索结果 - 1

RLHF 与 IIA：逆向激励
现有的基于人类反馈的强化学习算法基于假设无关替代物的独立性，因此可能激励与偏好相悖的响应，并且当在查询格式或学习算法上进行创新时会导致严重的行为。
PDF7 months ago