Nov, 2023

关于使用人类反馈进行强化学习对大型语言模型的可利用性研究

TL;DR通过 RankPoison 的毒化攻击生成带指定的恶意行为的污染数据集,可以对 LLMs 进行攻击,生成更长的令牌,而不损害原始安全对齐性能,这突显了 RLHF 中存在的关键安全挑战,强调了 LLMs 更强韧对齐方法的必要性。