Aug, 2018
下采样策略对 SVD 词嵌入稳定性的影响
The Influence of Down-Sampling Strategies on SVD Word Embedding Stability
Johannes Hellrich, Bernd Kampe, Udo Hahn
TL;DR比较不同语料库中词嵌入算法的稳定性和准确性,发现下采样策略特别影响 SVDPPMI 型嵌入的稳定性,通过简单修改可以提高稳定性和与 skip-gram 嵌入一样的准确性。
Abstract
The stability of word embedding algorithms, i.e., the consistency of the word
representations they reveal when trained repeatedly on the same data set, has
recently raised concerns. We here compare →
发现论文,激发创造
理解词嵌入的下游不稳定性
对现代自然语言处理管道的核心构建块 —— 预训练词嵌入的稳定性进行深入研究,通过提出新的嵌入不稳定性度量来解释模型训练的不稳定性,并提出提高嵌入存储大小以达到降低不稳定性的稳定性 - 内存权衡。
Feb, 2020
压缩谱嵌入:避开 SVD
本文提出一种基于随机投影与有限阶多项式拓展计算奇异值分解嵌入的压缩光谱嵌入算法,其降维效果与计算复杂度不受特征向量数量影响。此算法对聚类和分类等下游推断任务的对比相似度度量具有较好效果。
Sep, 2015
词嵌入相似度计算方式的频率依赖性
本文系统研究了几种静态词向量嵌入中单词频率与语义相似性之间的关联,并发现高频单词之间的相似性更高。同时,本文还探究了单词频率对基于嵌入的性别偏见测量的影响,并证明通过操纵单词频率可使偏见发生倒转。
Nov, 2022
锐化奇异值分解与音乐推荐
本文研究了在音乐推荐中广泛使用的截断奇异值分解的一个奇特效应,提出了一个度量此效应强度的度量方法,并证明了它与不同内部流行度的物品社区相关,最后展示了如何在添加数据的情况下估算音乐嵌入的前 k 个相似物品如何随时间变化。
Jun, 2023
利用自嵌入特征改进单词表示的负采样
本文提出了一种基于多维特征动态选择负采样的算法,以解决在 skip-gram 模型中使用流行度采样器的梯度消失问题,实验证明其在提高效果的同时并不增加计算复杂度。
Oct, 2017
关于单词嵌入空间的维度语言特征
本文对词嵌入进行了主成分分析,并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用,并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关,从而调查了基于方差的嵌入后处理的局限性,并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后,本文提供了一些关于应用基于方差的嵌入后处理的预防性准则,并解释了非各向同性几何可能是词嵌入性能的一部分的原因。
Oct, 2019