ICLROct, 2023

测试时间调整强化语言模型

TL;DR大规模语言模型在很多语言任务上取得了最先进的性能。然而,它们在针对对抗性语言示例时失败了,这些句子被精心优化以欺骗语言模型,但对人类来说具有类似的语义意义。我们的方法可以动态地适应输入句子并使用屏蔽词的预测结果,从而修复许多语言对抗攻击,而不需要任何训练。在两个流行的句子分类数据集上进行的可视化和实证结果表明,我们的方法能够修复超过 65% 的对抗性语言攻击。