基于神经网络的词嵌入噪声过滤
本文提出一种编码方法,用于从高维词嵌入中提取特定任务的知识,旨在解决在各种资源受限系统中高性能的轻量级神经网络的需求问题。实验结果表明,从笨重的嵌入中提取知识优于使用小型嵌入直接训练神经网络,能保证高准确性的同时大幅减少模型复杂度。
Jun, 2015
本文提出了一种基于特征嵌入的深度学习带标签噪声的方法(LEND),该方法能利用嵌入特征的内在韧性来有效减少误标签,采用深度学习进行训练并获得鲁棒性分类器。
Jun, 2022
本文针对词嵌入在自然语言处理中的应用,通过对 Word2vec、GloVe 等模型进行剖析,提出了一种通用形式,揭示出制作词嵌入所需的共同条件,并强调理论研究对未来模型开发的指导作用。
Nov, 2020
通过新颖的去噪 k 稀疏自编码器的变种,我们生成了高效且可解释的词向量,并在大规模人类评估中表现出比 GloVe 和 word2vec 更好的可解释性和性能。
Nov, 2017
提出了一种新颖的学习技术 ——Delta Embedding Learning 以优化调整单词嵌入,并通过结构化正则化确保了单词嵌入的逐步调整,提高了各种 NLP 任务的性能,并证实调整后的单词嵌入具有更好的语义属性。
Dec, 2018
本文通过对现有单词嵌入方法的特点和分类任务的分析,将单词嵌入方法划分为传统方法和基于神经网络的方法,揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。
Mar, 2023
本文提出应用数据增强方法来解决自然语言过拟合问题,尝试通过应用多种噪声扰动输入词嵌入以及在不同类型的噪声上应用几个约束条件,从而改进基线模型在多个句子分类任务上的表现。
Apr, 2018
本文提出了一种基于预训练词嵌入的全无监督命名实体识别模型,使用高斯隐马尔可夫模型和深度自编码高斯混合模型进行实体跨度检测和类型预测,并基于强化学习设计实例选择器,通过神经网络消除杂乱注释,实现了无需使用任何标注词典或语料库,表现出色。
Aug, 2019
本文提出了一种基于新颖训练过程的性别中性词向量的学习方法,通过在某些维度中保留性别信息并让其他维度不受性别影响的方法,成功地建立了一种 GN-GloVe 的性别中性变体,该变体在保留嵌入模型功能的基础上隔离了性别信息,并得到了定量和定性实验证实。
Aug, 2018
本文关注于从多个预训练的监督模型中提取表示,以丰富单词嵌入具有任务和领域特定的知识,实验表明这样的监督嵌入对于低资源情况有所帮助,但对于任务和领域的性质不同的扩展程度不同,而我们公开了我们的代码。
Jun, 2019