Feb, 2024

在数据短缺情况下比较正则化方法对文本分类的有效性:简单和复杂模型的比较

TL;DR本论文研究了只有少量标记数据可用时,正则化方法对各种分类模型的影响。研究比较了基于词嵌入的简单模型与复杂模型(CNN 和 BiLSTM),在有监督学习中,对抗训练可以进一步正则化模型。在有无标记的数据集时,可以使用半监督学习方法和虚拟对抗训练等方法来正则化模型。通过在四个文本分类数据集上评估正则化效果(AG 新闻、DBpedia、Yahoo! Answers、Yelp 极性),只使用原始标记训练文档的 0.1% 到 0.5% 进行实验。简单模型在完全监督学习中表现相对较好,但在对抗训练和半监督学习的帮助下,无论是简单模型还是复杂模型都能够得到正则化,复杂模型表现更好。虽然简单模型对过拟合有较强的鲁棒性,但一个具有良好先验信念的复杂模型也能够对过拟合有较强的鲁棒性。