词嵌入的维度性

Dec, 2018

On the Dimensionality of Word Embedding

Zi Yin, Yuanyuan Shen

TL;DR通过提出 Pairwise Inner Product (PIP) loss 提出了一种新的度量词嵌入非相似性的方法，并使用矩阵摄动理论揭示了词嵌入维度选择中的基本偏差 - 方差权衡，同时阐明了词嵌入过度拟合的鲁棒性。

Abstract

In this paper, we provide a theoretical understanding of word embedding and its dimensionality. Motivated by the unitary-invariance of word embed

word embedding dimensionality pip loss bias-variance trade-off over-fitting

发现论文，激发创造

理解向量嵌入的功能性和维度性：分布假设、成对内积误差及其偏差 - 方差权衡

本文提出了一个理论框架，以理解维度对向量嵌入的影响，并提出了 Pairwise Inner Product（PIP）loss，它是一种基于向量嵌入相似度的齐次不变量度量，用于捕捉向量嵌入之间的功能差异和维度的选择偏差 - 方差权衡问题，并发现了向量嵌入的鲁棒性与前向稳定性，并展开实证研究。

Mar, 2018

关于句子嵌入的维度

通过维度分析，我们提出了一种双步训练方法，优化编码器和池化器以减轻低维场景中的整体性能损失，从而显著提高低维句子嵌入的性能。

Oct, 2023

关于单词嵌入空间的维度语言特征

本文对词嵌入进行了主成分分析，并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用，并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关，从而调查了基于方差的嵌入后处理的局限性，并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后，本文提供了一些关于应用基于方差的嵌入后处理的预防性准则，并解释了非各向同性几何可能是词嵌入性能的一部分的原因。

Oct, 2019

RPD：一种用于词嵌入间距离计算的函数

本文提出了一种称作相对内积距离 (Relative pairwise inner Product Distance, RPD) 的新度量方法，用以比较不同的词向量空间，根据这个度量方法的特点，系统地研究了不同算法、训练过程和语料库的词向量之间的关系，并验证了 RPD 作为衡量嵌入空间距离的有效性，为尚未被完全了解的词嵌入提供了新的认识。

May, 2020

词嵌入的简单有效的降维方法

本文提出一种基于主成分分析和后处理算法相结合的新颖算法，用于将预先训练好的词向量降维，实验表明该算法能够在保证性能的前提下将词嵌入维数降至原来的一半。

Aug, 2017

混合产品距离下的静态词向量频率感知维度选择

本篇论文研究了词频对于维度选择的影响，提出了使用 Mixed Product Distance（MPD）作为指标，选择适当的维度，以优化词嵌入算法的效率 - 性能权衡，并通过实验验证该方法的优势。

May, 2023

维度变化对词嵌入偏差的影响

使用英文维基百科语料库，研究了维度变化对词嵌入偏差的影响，结果显示词嵌入的偏差会随着维度变化而显著变化，且对不同的词嵌入方法影响各异，因此在选择词嵌入维度时应考虑这些因素。

Dec, 2023

大规模 3D 形状检索的损失设计反思

本文提出了一种基于 CIP Loss 的形状嵌入方法，旨在解决大规模 3D 形状检索中的形状表示问题。实验结果表明，我们的方法在两个公共 3D 对象检索数据集上均取得了最先进的效果。

Jun, 2019

使用 Wasserstein 距离的高斯词嵌入

该研究提出了一种使用 Wasserstein 距离作为损失函数的高效高斯词嵌入模型，并利用 ConceptNet 进行半监督学习，以获得更丰富的语义信息和更好的性能。

Aug, 2018

高维度中的嵌入向量估计

基于一种概率模型，研究了嵌入学习在离散数据中的可学习性，并提出了一种用于估计的低秩近似消息传递方法，探讨了样本数量、词项频率和嵌入相关性对概率分布的影响。通过对合成数据和真实文本数据的模拟验证了理论研究的可行性。

Dec, 2023