ACLApr, 2022

使用预训练语言模型生成反对仇恨言论的对比研究

TL;DR本研究旨在使用预训练的语言模型对抗英语在线仇恨言论,我们发现自回归模型与随机解码结合是最有前途的;同时研究发现成功的反目标试验关键不在于整体相似性,而是训练数据中的特定子集与测试目标的共性。最后,我们提出了一种管道技术,将自动生成的反叙事加以自动后期编辑以提高其质量。