BriefGPT.xyz
Ask
alpha
关键词
independence of irrelevant alternatives
搜索结果 - 1
RLHF 与 IIA:逆向激励
现有的基于人类反馈的强化学习算法基于假设无关替代物的独立性,因此可能激励与偏好相悖的响应,并且当在查询格式或学习算法上进行创新时会导致严重的行为。
PDF
7 months ago
Prev
Next