Jun, 2024

来自损坏人类反馈的鲁棒强化学习

TL;DR通过稀疏异常点建模,我们提出了一种健壮的增强学习训练方法 $R^3M$,可以从人类反馈数据中一致地学习出潜在的奖励和异常点,并且在偏好数据扰动方面表现出强鲁棒性。