Dec, 2019

实现稳健有害内容分类

TL;DR本文提出了一种通过生成包含毒性单词的对抗样本,从而检验模型对毒性内容的识别性能,并探讨了使用 Contextual Denoising Autoencoder 提高模型鲁棒性的方法。实验表明,该方法在某些情况下可以将现有模型的检测准确率降低 50%以上。