在数据短缺情况下比较正则化方法对文本分类的有效性：简单和复杂模型的比较

Feb, 2024

在数据短缺情况下比较正则化方法对文本分类的有效性：简单和复杂模型的比较

Comparing effectiveness of regularization methods on text classification: Simple and complex model in data shortage situation

PDF

Jongga Lee, Jaeseung Yim, Seohee Park, Changwon Lim

TL;DR本论文研究了只有少量标记数据可用时，正则化方法对各种分类模型的影响。研究比较了基于词嵌入的简单模型与复杂模型（CNN 和 BiLSTM），在有监督学习中，对抗训练可以进一步正则化模型。在有无标记的数据集时，可以使用半监督学习方法和虚拟对抗训练等方法来正则化模型。通过在四个文本分类数据集上评估正则化效果（AG 新闻、DBpedia、Yahoo! Answers、Yelp 极性），只使用原始标记训练文档的 0.1% 到 0.5% 进行实验。简单模型在完全监督学习中表现相对较好，但在对抗训练和半监督学习的帮助下，无论是简单模型还是复杂模型都能够得到正则化，复杂模型表现更好。虽然简单模型对过拟合有较强的鲁棒性，但一个具有良好先验信念的复杂模型也能够对过拟合有较强的鲁棒性。

Abstract

text classification is the task of assigning a document to a predefined class. However, it is expensive to acquire enough labeled documents or to label them. In this paper, we study the regularization methods' ef

text classification regularization methods labeled data word embedding-based model semi-supervised learning

发现论文，激发创造

半监督文本分类的对抗训练方法

本文介绍了在文本领域将反对训练和虚拟反对训练应用于使用递归神经网络中的单词嵌入，并在多个基准半监督和纯监督任务上实现了最先进结果。

May, 2016

文本的鲁棒性表示学习

通过基于正则化的方法，限制深度神经网络对其输入的敏感性，从而学习出更加鲁棒的模型，实验表明这种方法在情感分析方面具有优秀的性能，尤其在处理有噪声和跨领域数据时，胜过基线模型和 dropout 方法。

Sep, 2016

基于嵌入式神经网络的正则化策略比较研究

本文旨在比较不同的正则化策略，以解决嵌入式神经网络在 NLP 中严重过拟合的现象。研究着重于超参数调整和组合不同的正则化策略，结果提供了神经 NLP 模型的超参数调整图片。

Aug, 2015

隐身嵌入：在深度神经网络中利用嵌入空间进行模型正则化

本文提出了一种新的方法，通过利用信息丰富的潜在嵌入及其高内类相关性，从同质样本的子集中创建虚拟嵌入，并使用这些虚拟嵌入来降低它们在潜在嵌入空间中的类间相似度，以达到模型规范化的目的且不需要昂贵的超参数搜索，并在两个流行和具有挑战性的图像分类数据集（CIFAR 和 FashionMNIST）上验证了方法的有效性。

Apr, 2023

长文档分类的比较研究

研究长文档分类任务使用标准的机器学习方法（如 Naive Bayes 和 BERT），在六个文本分类数据集上进行了广泛的算法比较研究，发现 BERT 模型性能稳定良好，但基于传统机器学习模型（如 BiLSTM 和 GloVe）也能在大多数数据集上表现出色，只在较困难的数据集（如 IMDB 情感分析）中对性能提升明显。

Nov, 2021

基于信息解缠正则化的文本分类连续学习

本研究提出了基于信息分离的正则化方法，并引入了两个简单的辅助任务，用于在大规模基准测试中进行不同长度和序列的持续文本分类任务，证明了该方法的有效性。

Apr, 2021

通过对抗训练来改善神经语言模型

使用对抗训练机制可以更好地规范神经语言模型中的过度拟合问题，增加嵌入向量的多样性并提高在机器翻译领域的性能。

Jun, 2019

通过混合目标函数重新审视 LSTM 网络，用于半监督文本分类

本文研究双向 LSTM 网络在文本分类任务中的监督和半监督学习方法，利用交叉熵损失以及熵最小化、对抗和虚拟对抗损失相结合的训练策略，在多个基准数据集上取得了最新的文本分类结果。

Sep, 2020

弱监督神经文本分类

本文提出了一种弱监督文本分类方法，其包括一个利用种子信息生成伪标签文档进行模型预训练的伪文档生成器和一个在真实未标记数据上引导模型改进的自训练模块，具有处理不同类型弱监督任务和易于与深度神经网络模型集成等优点，并在三个真实数据集上进行了广泛的实验，结果表明其大幅优于基准方法而不需要过多的训练数据。

Sep, 2018

用基于正则化的简单算法学习跨领域词嵌入

本文提出了一种基于不同领域文本的词嵌入学习方法，并通过多个下游 NLP 任务的实验，证明了该方法的有效性。

Feb, 2019