Aug, 2023

你真的跟随我吗?评估大型语言模型的稳健性的对抗性指令

TL;DR通过实验,我们揭示了先进的指令跟踪模型在抵御对抗性指令攻击方面的显著局限性,并且发现了指令调优模型容易过拟合于输入的指令短语而无法真正理解应该遵循哪些指令的问题。这突出了训练模型理解提示而非仅仅遵循指令短语并完成文本的挑战。