本文提出了一个理论框架,以理解维度对向量嵌入的影响,并提出了 Pairwise Inner Product(PIP)loss,它是一种基于向量嵌入相似度的齐次不变量度量,用于捕捉向量嵌入之间的功能差异和维度的选择偏差 - 方差权衡问题,并发现了向量嵌入的鲁棒性与前向稳定性,并展开实证研究。
Mar, 2018
通过维度分析,我们提出了一种双步训练方法,优化编码器和池化器以减轻低维场景中的整体性能损失,从而显著提高低维句子嵌入的性能。
Oct, 2023
本文对词嵌入进行了主成分分析,并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用,并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关,从而调查了基于方差的嵌入后处理的局限性,并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后,本文提供了一些关于应用基于方差的嵌入后处理的预防性准则,并解释了非各向同性几何可能是词嵌入性能的一部分的原因。
Oct, 2019
本文提出了一种称作相对内积距离 (Relative pairwise inner Product Distance, RPD) 的新度量方法,用以比较不同的词向量空间,根据这个度量方法的特点,系统地研究了不同算法、训练过程和语料库的词向量之间的关系,并验证了 RPD 作为衡量嵌入空间距离的有效性,为尚未被完全了解的词嵌入提供了新的认识。
May, 2020
本文提出一种基于主成分分析和后处理算法相结合的新颖算法,用于将预先训练好的词向量降维,实验表明该算法能够在保证性能的前提下将词嵌入维数降至原来的一半。
Aug, 2017
本篇论文研究了词频对于维度选择的影响,提出了使用 Mixed Product Distance(MPD)作为指标,选择适当的维度,以优化词嵌入算法的效率 - 性能权衡,并通过实验验证该方法的优势。
May, 2023
使用英文维基百科语料库,研究了维度变化对词嵌入偏差的影响,结果显示词嵌入的偏差会随着维度变化而显著变化,且对不同的词嵌入方法影响各异,因此在选择词嵌入维度时应考虑这些因素。
Dec, 2023
本文提出了一种基于 CIP Loss 的形状嵌入方法,旨在解决大规模 3D 形状检索中的形状表示问题。实验结果表明,我们的方法在两个公共 3D 对象检索数据集上均取得了最先进的效果。
Jun, 2019
该研究提出了一种使用 Wasserstein 距离作为损失函数的高效高斯词嵌入模型,并利用 ConceptNet 进行半监督学习,以获得更丰富的语义信息和更好的性能。
Aug, 2018
基于一种概率模型,研究了嵌入学习在离散数据中的可学习性,并提出了一种用于估计的低秩近似消息传递方法,探讨了样本数量、词项频率和嵌入相关性对概率分布的影响。通过对合成数据和真实文本数据的模拟验证了理论研究的可行性。