本篇论文探讨了对预训练语言模型中的上下文嵌入层进行后处理的实用性,进一步应用标准化个体神经元激活层、单位长度标准化等方法,发现这些方法能够揭示嵌入层中的重要信息,包括词汇任务和序列分类任务。文章提出了 z-score 标准化作为使用这些方法的一个重要步骤。
Apr, 2021
本文介绍了一种基于矩阵嵌入器的新型词向量后处理技术,能够抑制词向量中高方差的潜在特征,该方法是纯无监督学习的,不依赖于任何语料库或外部语言数据库,研究结果表明,这种词向量后处理方法在内在词汇评估任务中表现比现有的前沿方法更好,并且后处理后的词向量可用于对话状态跟踪的下游自然语言处理任务,在不同的对话领域中都能取得更好的结果。
Nov, 2018
本文着重讨论了如何通过使用已知技巧来训练高质量的单词向量表示,以提高自然语言处理任务的表现,并提供了一组公开可用的预训练模型,能在多项任务上远远优于现有技术。
Dec, 2017
本文提出一种基于主成分分析和后处理算法相结合的新颖算法,用于将预先训练好的词向量降维,实验表明该算法能够在保证性能的前提下将词嵌入维数降至原来的一半。
Aug, 2017
本文提出一种基于 skip-gram 模型的新方法,其中每个单词被表示为一组字符 n-grams 的加和。该方法快速、可在大型语料库上快速训练模型,同时可以计算未出现在训练数据中的单词的表示。我们在九种不同的语言上评估了我们的单词表示,通过与最近提出的形态单词表示进行比较,我们发现我们的向量在这些任务上达到了最先进的性能。
Jul, 2016
提出一种将词向量转换成稀疏(可选二进制)向量的方法,使得词向量更接近于自然语言处理中常用的可解释特征,但这些特征是从原始语料库中自动发现的,并且在基准任务上优于原始向量。
Jun, 2015
提出了一种基于分布式语义嵌入的主题建模方法 top2vec,不需要预定义的停用词表、词干提取或词形还原等预处理,能够自动确定主题数目,有效地提取语义信息并以主题向量的形式呈现。实验结果表明,top2vec 比传统的生成模型更加优秀。
Aug, 2020
该研究介绍了一种从手工构造的语言资源(如 WordNet、FrameNet 等)中构建解释性词向量的方法,这些向量是二进制的(即仅包含 0 和 1),且稀疏率达到 99.9%。该方法在词向量分布模型的最新评估方法上表现良好,竞争力强。
本文提出了一种名为 extrofitting 的后处理方法,使用语义词典丰富单词表示和其向量空间,包括向所有单词向量上扩展 1 个或多个维度,填充代表值并将语义知识传输到这些扩展的维度。此外,采用线性判别分析进行向量空间映射,得到最终的词向量表示。实验证明,该方法在一些单词相似度任务上胜过 Faruqui 的后调方法,并对其维度、词汇表大小等进行了进一步的分析。
Apr, 2018
本文提出了一种基于因果推断框架下的新型词向量后处理方案,并应用 Half-Sibling Regression 算法,以识别和消除噪音,实现对预训练词向量的增强,相较于之前的方法具有可解释性和透明度,评估结果表明在标准水平评估任务和情感分析方面的性能达到了最先进水平。
Nov, 2019