基于嵌入式神经网络的正则化策略比较研究
本文提出了一种新的方法,通过利用信息丰富的潜在嵌入及其高内类相关性,从同质样本的子集中创建虚拟嵌入,并使用这些虚拟嵌入来降低它们在潜在嵌入空间中的类间相似度,以达到模型规范化的目的且不需要昂贵的超参数搜索,并在两个流行和具有挑战性的图像分类数据集(CIFAR 和 FashionMNIST)上验证了方法的有效性。
Apr, 2023
本研究提出了一种基于嵌入正则化约束的神经主题模型,引入了嵌入空间的均匀性度量,通过剔除不必要的参数优化空间,研究嵌入的变化对于模型性能的影响,以此实现主题质量和文档建模之间的平衡。
Jun, 2022
本论文研究了只有少量标记数据可用时,正则化方法对各种分类模型的影响。研究比较了基于词嵌入的简单模型与复杂模型(CNN 和 BiLSTM),在有监督学习中,对抗训练可以进一步正则化模型。在有无标记的数据集时,可以使用半监督学习方法和虚拟对抗训练等方法来正则化模型。通过在四个文本分类数据集上评估正则化效果(AG 新闻、DBpedia、Yahoo! Answers、Yelp 极性),只使用原始标记训练文档的 0.1% 到 0.5% 进行实验。简单模型在完全监督学习中表现相对较好,但在对抗训练和半监督学习的帮助下,无论是简单模型还是复杂模型都能够得到正则化,复杂模型表现更好。虽然简单模型对过拟合有较强的鲁棒性,但一个具有良好先验信念的复杂模型也能够对过拟合有较强的鲁棒性。
Feb, 2024
本研究针对阅读理解任务过往的机器学习研究,发现所使用的预训练词向量和测试时的未登录词处理方法等看似微小的选择,比起架构选择对最终性能的影响更大。我们对这些选择进行系统探讨,为从事该领域研究的学者提供建议。
Mar, 2017
本研究探讨了神经机器翻译的监督域自适应技术,针对现有模型在大型非领域数据集训练后,如何适应小型领域数据集所出现的过拟合问题。在整个过程中,正则化技术,如 dropout 和 L2 正则化与非领域先验之间的关系得到了深入研究。此外,文章提出了一种新型的正则化技术 ——tuneout,即启发式 dropout。我们将这些技术单独或结合应用于神经机器翻译,以英语 -> 德语、英语 -> 俄语的 IWSLT 数据集为例取得了改进。此外,我们还研究了 NMT 领域中所需的领域内训练数据量,并发现培训数据与 BLEU 分数之间存在对数关系。
Jul, 2017
该研究介绍了一种简单的正则化技术,在循环神经网络 (RNNs) 与长短期记忆 (LSTM) 单元上应用 Dropout 可以减少不同任务中的过度拟合,包括语言建模、语音识别、图像字幕生成和机器翻译等。
Sep, 2014
本文通过对现有单词嵌入方法的特点和分类任务的分析,将单词嵌入方法划分为传统方法和基于神经网络的方法,揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。
Mar, 2023
本研究表明,使用交叉熵损失结合常用的正则化策略,如学习率下降、模型权重平均和数据增强等,可以优于最先进的方法,在处理学习噪声标签的挑战时,采用一种正则化策略组合可能比复杂的算法更有效。
Jul, 2023