我们探索了不同语言中词嵌入的稳定性,并讨论了与稳定性相关的语言属性,如词缀和语言性别系统等,这对于研究语言趋势的词嵌入应用具有重要意义。
Apr, 2020
本文分析了基于句法表示的方言分类器在空间和时间上的稳定程度,并构建了一个测试集,评估了 12 种英语方言在 3 年内随时间变化的分类准确性和语法变化速率。通过在语用建构语法范式(CxG)中制定的句法表示,可以识别在时间和空间上发生语法变化的地区。本文的主要贡献在于表明严格评估方言分类模型可用于发现空间上的变异和时间上的变化。
Sep, 2022
本文对词嵌入进行了主成分分析,并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用,并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关,从而调查了基于方差的嵌入后处理的局限性,并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后,本文提供了一些关于应用基于方差的嵌入后处理的预防性准则,并解释了非各向同性几何可能是词嵌入性能的一部分的原因。
Oct, 2019
本文探讨了词向量方法的局限性,特别是它们在稳定性方面的表现,并通过实证研究探究了多种因素对词嵌入稳定性的贡献以及稳定性对下游任务的影响。
Apr, 2018
本研究发现,通过预训练语言模型(LMs)建立的表征空间,不仅编码了单词及其关系等抽象语义概念,也能够识别如复杂性、正式程度和象征性等字词风格,以及使用在小数量文本中产生的矢量表征。此外,本文还对这些表征空间的词级与短语级特征进行了分析,并表明无论静态嵌入还是上下文化 LMs,都可以在对不同长度的文本进行字符化时得到更高的准确度。
May, 2023
本研究提出了一种基于嵌入正则化约束的神经主题模型,引入了嵌入空间的均匀性度量,通过剔除不必要的参数优化空间,研究嵌入的变化对于模型性能的影响,以此实现主题质量和文档建模之间的平衡。
Jun, 2022
利用词向量建立方言图,提供新的度量词语差异的方法,探究两个美国政治子版的话语,并显示出政治家和政治实体情绪上的极端相反、对适当的政治行为评估的差异以及关于是否需要政治干预某些问题的分歧。
Feb, 2023
对现代自然语言处理管道的核心构建块 —— 预训练词嵌入的稳定性进行深入研究,通过提出新的嵌入不稳定性度量来解释模型训练的不稳定性,并提出提高嵌入存储大小以达到降低不稳定性的稳定性 - 内存权衡。
Feb, 2020
本文研究使用基于上下文嵌入方法进行检测历时语义变化的可能存在的输出错误。通过引入单一方法并进行深入的分析,作者发现这种方法可能会将词汇的词典含义变化与上下文语境的变化混淆,同时将词汇实体的句法和语义方面合并在一起。本文提出了一些解决这些问题的未来可能方案。
Aug, 2022
本文提出了一种将任何嵌入空间转换成易理解的概念空间的方法,并展示了该方法在语义表示方面的实用价值,如发现潜藏的偏见和比较不同模型间语义的差异。