Apr, 2024

说得太多:在标记限制下攻击大型语言模型

TL;DR通过限制语言模型的生成能力,从而触发有害输出的一种毒化攻击方法被提出,该方法在输出受限的条件下表现出有害行为,同时保持良好性能。