EMNLPOct, 2023
通过毒化逆转实现自我解毒的语言模型
Self-Detoxifying Language Models via Toxification Reversal
Chak Tou Leong, Yi Cheng, Jiashuo Wang, Jian Wang, Wenjie Li
TL;DR本文提出了一种轻量级方法,通过在预训练语言模型中添加负向指令来诱导模型生成无害内容,同时利用注意力层中的信息传递方式来逆转生成过程中的有害方向,实现语言模型自我脱毒。实验结果表明,我们的方法无需微调或额外组件,可达到与最先进方法相当的性能。