EMNLPOct, 2023

通过毒化逆转实现自我解毒的语言模型

TL;DR本文提出了一种轻量级方法,通过在预训练语言模型中添加负向指令来诱导模型生成无害内容,同时利用注意力层中的信息传递方式来逆转生成过程中的有害方向,实现语言模型自我脱毒。实验结果表明,我们的方法无需微调或额外组件,可达到与最先进方法相当的性能。