解构词嵌入

Jan, 2019

Deconstructing Word Embeddings

Koushik Varma Kalidindi

TL;DR该论文通过解构方法回顾了词嵌入模型，揭示了诸多缺点和不一致性，包括向量表示的不稳定性、扭曲的类比推理、与语言特征的几何不兼容性以及语料库数据的不一致性，提出了一种新的理论嵌入模型 —— 德里达式嵌入 (Derridian Embedding)，并对现代嵌入模型进行了定性评估，比较了它们与德里达式嵌入的能力是否相当。

Abstract

A review of word embedding models through a deconstructive approach reveals their several shortcomings and inconsistencies. These include instability of the vector representations, a distorted →

word embedding models deconstructive approach derridian embedding analogical reasoning corpus data

发现论文，激发创造

词嵌入算法的解构

本文针对词嵌入在自然语言处理中的应用，通过对 Word2vec、GloVe 等模型进行剖析，提出了一种通用形式，揭示出制作词嵌入所需的共同条件，并强调理论研究对未来模型开发的指导作用。

Nov, 2020

现有词嵌入方法的全面实证评估

本文通过对现有单词嵌入方法的特点和分类任务的分析，将单词嵌入方法划分为传统方法和基于神经网络的方法，揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。

Mar, 2023

关于单词嵌入空间的维度语言特征

本文对词嵌入进行了主成分分析，并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用，并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关，从而调查了基于方差的嵌入后处理的局限性，并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后，本文提供了一些关于应用基于方差的嵌入后处理的预防性准则，并解释了非各向同性几何可能是词嵌入性能的一部分的原因。

Oct, 2019

词向量评估方法概述

本论文总结了词嵌入表示领域的广泛研究，概括了 16 种内在方法和 12 种外在方法，提出了一种方法分类并讨论了一些关键挑战。

Jan, 2018

揭示词嵌入中的差异性语言信息及其对内在和外在评估的意义

本文研究词嵌入技术中的理想表示问题，发现各种模型包含的信息互相矛盾，通过线性变换来调整相似度排序以提高其结果，同时探讨了内在和外在评估之间的关系。

Sep, 2018

文化的几何学：通过词嵌入分析含义

本文介绍了一种新方法，神经网络词嵌入模型，以用于大规模文本分析，揭示了这些模型如何比以前的方法更能产生丰富的文化联想和类别，推进了一个与当代身份和文化理论一致的意义关系模型，以高维空间中的向量几何关系表示单词之间的语义关系。作者展示了词嵌入模型在宏观文化调查中的应用，并给出了对 20 世纪美国性别和阶级联系的纵向分析以及对美英性别和阶级标记历史区别的比较分析。作者认为，这些高维模型的成功促使朝着 “高维度理论化” 的意义、身份和文化过程的方向发展。

Mar, 2018

词嵌入的语义结构和可解释性

该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构，并引入了一个新的数据集（SEMCAT），其中包含超过 6500 个在 110 个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法，这是一种实用的替代方法，不需要人为干预。

Nov, 2017

跨语言词向量稳定性变异的分析

我们探索了不同语言中词嵌入的稳定性，并讨论了与稳定性相关的语言属性，如词缀和语言性别系统等，这对于研究语言趋势的词嵌入应用具有重要意义。

Apr, 2020

我们是否存在一致偏差？对分布式词向量偏差的多维分析

该研究对分布式词向量空间中的偏见效应进行了系统性分析，研究表明：偏见效应在不同的词向量模型、文本类型和语言之间是不一致的，同时，双语词向量空间中的跨语言偏见也是存在的。该研究以期促进自然语言处理中的偏见研究，为偏见缓解技术的发展提供帮助。

Apr, 2019

通过概念化解释嵌入空间

本文提出了一种将任何嵌入空间转换成易理解的概念空间的方法，并展示了该方法在语义表示方面的实用价值，如发现潜藏的偏见和比较不同模型间语义的差异。

Aug, 2022