解构词嵌入
本文针对词嵌入在自然语言处理中的应用,通过对 Word2vec、GloVe 等模型进行剖析,提出了一种通用形式,揭示出制作词嵌入所需的共同条件,并强调理论研究对未来模型开发的指导作用。
Nov, 2020
本文通过对现有单词嵌入方法的特点和分类任务的分析,将单词嵌入方法划分为传统方法和基于神经网络的方法,揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。
Mar, 2023
本文对词嵌入进行了主成分分析,并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用,并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关,从而调查了基于方差的嵌入后处理的局限性,并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后,本文提供了一些关于应用基于方差的嵌入后处理的预防性准则,并解释了非各向同性几何可能是词嵌入性能的一部分的原因。
Oct, 2019
本文研究词嵌入技术中的理想表示问题,发现各种模型包含的信息互相矛盾,通过线性变换来调整相似度排序以提高其结果,同时探讨了内在和外在评估之间的关系。
Sep, 2018
本文介绍了一种新方法,神经网络词嵌入模型,以用于大规模文本分析,揭示了这些模型如何比以前的方法更能产生丰富的文化联想和类别,推进了一个与当代身份和文化理论一致的意义关系模型,以高维空间中的向量几何关系表示单词之间的语义关系。作者展示了词嵌入模型在宏观文化调查中的应用,并给出了对 20 世纪美国性别和阶级联系的纵向分析以及对美英性别和阶级标记历史区别的比较分析。作者认为,这些高维模型的成功促使朝着 “高维度理论化” 的意义、身份和文化过程的方向发展。
Mar, 2018
该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构,并引入了一个新的数据集(SEMCAT),其中包含超过 6500 个在 110 个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法,这是一种实用的替代方法,不需要人为干预。
Nov, 2017
该研究对分布式词向量空间中的偏见效应进行了系统性分析,研究表明:偏见效应在不同的词向量模型、文本类型和语言之间是不一致的,同时,双语词向量空间中的跨语言偏见也是存在的。该研究以期促进自然语言处理中的偏见研究,为偏见缓解技术的发展提供帮助。
Apr, 2019