ACLMar, 2024

不要愚蠢:用户意图的敌对攻击中的汇聚策略在攻击性语言检测中的应用

TL;DR该研究提出了防御用户意图中的敌对攻击的简单而有效的分层池化策略,以提高对攻击性文本的检测性能。研究发现,通过使用这些池化策略,即使攻击强度增加,预训练于干净文本的模型也能够实现与预训练于含噪文本的模型相当的检测性能。