自编码提升预训练词嵌入
本文对词嵌入进行了主成分分析,并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用,并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关,从而调查了基于方差的嵌入后处理的局限性,并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后,本文提供了一些关于应用基于方差的嵌入后处理的预防性准则,并解释了非各向同性几何可能是词嵌入性能的一部分的原因。
Oct, 2019
本文研究了在多语言训练中的强大的语句编码器,探讨了是否可以通过几何映射来间接地操纵语言属性,并用预训练的多语言自编码器验证了该方法的有效性。
Apr, 2021
研究表明预训练语言模型,如 BERT,在自然语言处理方面具有更广泛的应用价值。本文探究和分析预训练 BERT 嵌入的几何特征,提出一种基于可学习权重的简单而有效的方法,可以更好地处理向量的同一性问题,并在三项标准任务中获得较好的性能表现。
Apr, 2021
使用预训练语言模型(PLMs)生成的句子嵌入引起了自然语言处理界的广泛关注,因为它们在多种下游应用中以优越的性能表示文本。然而,当在内存或计算受限设备中表示大量句子时,由 PLMs 生成的句子嵌入的高维度会带来问题。作为解决方案,我们评估了无监督的降维方法来降低由 PLMs 生成的句子嵌入的维度。我们的实验结果表明,如主成分分析(PCA)等简单方法可以将句子嵌入的维度降低近 50%,而不会在多个下游任务中造成显著性能损失。令人惊讶的是,在某些任务中,进一步降低维度可以提高某些 PLMs 生成的句子嵌入的性能。
Mar, 2024
该研究提出了一种名为 EMAP 的新技术,通过将句子投射到一个固定维度的流形上,以保留原始空间中的局部邻域来无监督地生成句子嵌入,可以用于文本分类,实验证明该方法性能优于其他最先进方法。
Feb, 2021
本文介绍了使用一种单隐层全连接自编码器进行特征提取可以有效地恢复主成分分析 (PCA) 的加载向量,且训练权重与 PCA 加载向量存在差异,从而优化特征提取的性能。
Apr, 2018
本文关注于从多个预训练的监督模型中提取表示,以丰富单词嵌入具有任务和领域特定的知识,实验表明这样的监督嵌入对于低资源情况有所帮助,但对于任务和领域的性质不同的扩展程度不同,而我们公开了我们的代码。
Jun, 2019
本篇论文探讨了对预训练语言模型中的上下文嵌入层进行后处理的实用性,进一步应用标准化个体神经元激活层、单位长度标准化等方法,发现这些方法能够揭示嵌入层中的重要信息,包括词汇任务和序列分类任务。文章提出了 z-score 标准化作为使用这些方法的一个重要步骤。
Apr, 2021