我们探索了不同语言中词嵌入的稳定性,并讨论了与稳定性相关的语言属性,如词缀和语言性别系统等,这对于研究语言趋势的词嵌入应用具有重要意义。
Apr, 2020
对现代自然语言处理管道的核心构建块 —— 预训练词嵌入的稳定性进行深入研究,通过提出新的嵌入不稳定性度量来解释模型训练的不稳定性,并提出提高嵌入存储大小以达到降低不稳定性的稳定性 - 内存权衡。
Feb, 2020
本文系统研究了几种静态词向量嵌入中单词频率与语义相似性之间的关联,并发现高频单词之间的相似性更高。同时,本文还探究了单词频率对基于嵌入的性别偏见测量的影响,并证明通过操纵单词频率可使偏见发生倒转。
Nov, 2022
比较不同语料库中词嵌入算法的稳定性和准确性,发现下采样策略特别影响 SVDPPMI 型嵌入的稳定性,通过简单修改可以提高稳定性和与 skip-gram 嵌入一样的准确性。
Aug, 2018
本文研究使用不同区域英语的嵌入空间的变化,并控制嵌入的不稳定性。实验得出结论:培训数据中的方言会对生成的嵌入空间产生显著的影响,并且这种方言差异在词汇的特定部分尤其容易出现变化。这表明方言之间存在语义上的差异,除了之前研究所述的词汇和句法差异。
Mar, 2023
分析了 node2vec 图嵌入策略在多个方面的嵌入质量,发现其嵌入质量对参数选择不稳定,并提出了实际上的解决方案。
Jun, 2022
本研究总结了最近的构建定长、密集、分布式单词表示的主要策略,并阐述了这些表示通常被称为单词嵌入,并除了编码出色的句法和语义信息之外,还被证明在许多下游自然语言处理任务中有用的额外特征。
Jan, 2019
本文提出了一种不使用向量空间对齐,而是考虑每个单词的邻居的新方法,有效地解决了数字人文学和计算社会科学中的文本比较问题。
Dec, 2021
使用我们的方法,可以了解到 word embedding 偏差的起源,并找出删除哪些文档可以最大程度地降低偏差。我们在《纽约时报》和 Wikipedia 语料库上演示了我们的技术,并发现我们的影响函数近似非常精确。
Oct, 2018
本文提出了一种评估单词表示学习方法的方法,即通过评估不同初始值下学习得到的单词表示的一致性。通过提出的度量标准,评估结果不仅揭示了单词嵌入方法的内在特性,还与下游任务的其他评估指标具有良好的相关性,这对于开发新的单词嵌入方法具有重要的鲁棒性特征的考虑是有用的。
May, 2016