本文提出了两个新模型,利用无监督学习改进词向量表示方法,得到噪声更少的词向量表示,这是通过利用深度前馈神经网络滤波器来强化有意义的信息,减弱噪声得到的,实验结果表明,过滤后的词向量表示比原始词向量更有效。
Oct, 2016
通过引入噪音亚百特信息编码的向量空间,使用探测框架扩展方法,研究了 GloVe 和 BERT 嵌入中向量范数如何编码不同种类的信息,发现 GloVe 在向量范数中存储了句法和句子长度信息,而 BERT 则将其用于编码上下文不连贯信息。
Oct, 2022
在计算社会科学的各种应用中,静态词嵌入广泛存在并为实际决策做出了贡献,然而,从词嵌入统计中得出的下游结论的统计不确定性评估一直是具有挑战性的。本文提出了一种方法,通过使用多元正态模型的解析近似来获得 GloVe(Pennington 等,2014)的近似、易于使用和可扩展的重建误差方差估计,GloVe 是最广泛使用的词嵌入模型之一。为了展示具有方差(GloVe-V)的嵌入的价值,我们说明了我们的方法如何使核心词嵌入任务中的原则性假设检验变得合理,例如在向量空间中比较不同词对之间的相似性,评估不同模型的性能,并使用不同的词列表分析语料库中的种族或性别偏见的相对程度。
Jun, 2024
该研究介绍了一种新的学习语言模型的方法,通过训练模型估计词 - 上下文点间互信息(PMI),并通过 PMI 在测试时求出所需的条件概率。
Jul, 2017
通过新颖的去噪 k 稀疏自编码器的变种,我们生成了高效且可解释的词向量,并在大规模人类评估中表现出比 GloVe 和 word2vec 更好的可解释性和性能。
Nov, 2017
我们提出了一种新方法,通过在密度估计问题中将噪声样本的生成与观察到的数据联系起来,旨在比噪声对比估计更好地估计未规范化模型的参数,并在深度学习中证明了其适用性。
Jun, 2018
本研究对语言建模中的自归一化进行了全面的研究,通过理论分析噪声对比估计 (NCE) 语言模型的自归一化特性,与使用显式正则化来自归一化的 softmax-based 方法进行了经验比较,并提出了一种具有吸引力的混合模型。最后,发现自归一化和困惑度之间存在负相关,这一规律为未来改善自归一化算法提供了一定的帮助。
本文提供一种新的估算方法,用于加速基于 Noise Contrastive Estimate 的学习,以处理长度和加权输入不同的文档,实验表明该方法在文档检索和分类方面具有高效率和高准确性。
Jun, 2015
本文提出使用 $garble$,即由随机字符序列组成的 $n$-grams,作为语境来研究字词含义,同时探讨了 $garble$ 字向量、终极语言和伪词的嵌入,并通过 CharacterBERT 模型识别嵌入空间中将这些 $n$-grams 进行分离的轴,进而发现含义和原始信息之间的内在联系。
Mar, 2022
该研究提出了一种基于贝叶斯建模的方法,以更准确地检测词向量中的偏见,并在 Religion、Gender 和 Race 词表上进行了展示,验证了它的有效性。
Jun, 2023