方言嵌入空间的变异性和不稳定性

Mar, 2023

方言嵌入空间的变异性和不稳定性

Variation and Instability in Dialect-Based Embedding Spaces

Jonathan Dunn

TL;DR本文研究使用不同区域英语的嵌入空间的变化，并控制嵌入的不稳定性。实验得出结论：培训数据中的方言会对生成的嵌入空间产生显著的影响，并且这种方言差异在词汇的特定部分尤其容易出现变化。这表明方言之间存在语义上的差异，除了之前研究所述的词汇和句法差异。

Abstract

This paper measures variation in embedding spaces which have been trained on different regional varieties of english while controlling for

embedding spaces regional varieties english dialect-based variation lexicon

发现论文，激发创造

跨语言词向量稳定性变异的分析

我们探索了不同语言中词嵌入的稳定性，并讨论了与稳定性相关的语言属性，如词缀和语言性别系统等，这对于研究语言趋势的词嵌入应用具有重要意义。

Apr, 2020

句法方言分类的时空稳定性

本文分析了基于句法表示的方言分类器在空间和时间上的稳定程度，并构建了一个测试集，评估了 12 种英语方言在 3 年内随时间变化的分类准确性和语法变化速率。通过在语用建构语法范式（CxG）中制定的句法表示，可以识别在时间和空间上发生语法变化的地区。本文的主要贡献在于表明严格评估方言分类模型可用于发现空间上的变异和时间上的变化。

Sep, 2022

关于单词嵌入空间的维度语言特征

本文对词嵌入进行了主成分分析，并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用，并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关，从而调查了基于方差的嵌入后处理的局限性，并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后，本文提供了一些关于应用基于方差的嵌入后处理的预防性准则，并解释了非各向同性几何可能是词嵌入性能的一部分的原因。

Oct, 2019

影响单词嵌入稳定性的因素

本文探讨了词向量方法的局限性，特别是它们在稳定性方面的表现，并通过实证研究探究了多种因素对词嵌入稳定性的贡献以及稳定性对下游任务的影响。

Apr, 2018

语言模型词嵌入空间中的词汇文体特征表达

本研究发现，通过预训练语言模型（LMs）建立的表征空间，不仅编码了单词及其关系等抽象语义概念，也能够识别如复杂性、正式程度和象征性等字词风格，以及使用在小数量文本中产生的矢量表征。此外，本文还对这些表征空间的词级与短语级特征进行了分析，并表明无论静态嵌入还是上下文化 LMs，都可以在对不同长度的文本进行字符化时得到更高的准确度。

May, 2023

基于嵌入式神经主题模型的统一性和显式规则化嵌入式更好理解

本研究提出了一种基于嵌入正则化约束的神经主题模型，引入了嵌入空间的均匀性度量，通过剔除不必要的参数优化空间，研究嵌入的变化对于模型性能的影响，以此实现主题质量和文档建模之间的平衡。

Jun, 2022

方言图：论述性社群中的机器学习差异

利用词向量建立方言图，提供新的度量词语差异的方法，探究两个美国政治子版的话语，并显示出政治家和政治实体情绪上的极端相反、对适当的政治行为评估的差异以及关于是否需要政治干预某些问题的分歧。

Feb, 2023

理解词嵌入的下游不稳定性

对现代自然语言处理管道的核心构建块 —— 预训练词嵌入的稳定性进行深入研究，通过提出新的嵌入不稳定性度量来解释模型训练的不稳定性，并提出提高嵌入存储大小以达到降低不稳定性的稳定性 - 内存权衡。

Feb, 2020

上下文化语言模型用于语义变化检测：经验教训

本文研究使用基于上下文嵌入方法进行检测历时语义变化的可能存在的输出错误。通过引入单一方法并进行深入的分析，作者发现这种方法可能会将词汇的词典含义变化与上下文语境的变化混淆，同时将词汇实体的句法和语义方面合并在一起。本文提出了一些解决这些问题的未来可能方案。

Aug, 2022

通过概念化解释嵌入空间

本文提出了一种将任何嵌入空间转换成易理解的概念空间的方法，并展示了该方法在语义表示方面的实用价值，如发现潜藏的偏见和比较不同模型间语义的差异。

Aug, 2022