EMNLPOct, 2022

识别生成单词级对抗样本的人类策略

TL;DR本研究分析了人类如何生成针对细调 Transformer 模型的自然性和语法正确性保持的词级对抗性示例,通过探索人类工作者在生成过程中的行为模式,我们识别出人类更喜欢选择哪些单词进行对抗替换以及何时何地进行替换。研究结果可用于启发利用人类策略制定更强大的自然语言处理模型。