Nov, 2023
关于使用人类反馈进行强化学习对大型语言模型的可利用性研究
On the Exploitability of Reinforcement Learning with Human Feedback for Large Language Models
Jiongxiao Wang, Junlin Wu, Muhao Chen, Yevgeniy Vorobeychik, Chaowei Xiao
TL;DR通过 RankPoison 的毒化攻击生成带指定的恶意行为的污染数据集,可以对 LLMs 进行攻击,生成更长的令牌,而不损害原始安全对齐性能,这突显了 RLHF 中存在的关键安全挑战,强调了 LLMs 更强韧对齐方法的必要性。