Mar, 2024

基于 DPP 的对抗性提示搜索用于语言模型

TL;DR自动回归选择性替代提升(ASRA)是一种离散优化算法,基于优质性和决定性点过程(DPP)的相似性选择提示,以发现和修改预训练语言模型潜在的有害输出。实验结果表明,ASRA 在六种不同的预训练语言模型上有效地引发了有害内容,并显示出与目标输出的困惑程度之间的强相关性,而与模型参数数量的相关性有限。