词嵌入算法的解构

EMNLPNov, 2020

Deconstructing word embedding algorithms

Kian Kenyon-Dean, Edward Newell, Jackie Chi Kit Cheung

TL;DR本文针对词嵌入在自然语言处理中的应用，通过对 Word2vec、GloVe 等模型进行剖析，提出了一种通用形式，揭示出制作词嵌入所需的共同条件，并强调理论研究对未来模型开发的指导作用。

Abstract

word embeddings are reliable feature representations of words used to obtain high quality results for various nlp applications. Uncontextualized word embeddings are used in many NLP tasks today, especially in res

word embeddings nlp applications resource-limited settings word2vec glove

发现论文，激发创造

现有词嵌入方法的全面实证评估

本文通过对现有单词嵌入方法的特点和分类任务的分析，将单词嵌入方法划分为传统方法和基于神经网络的方法，揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。

Mar, 2023

探索词语和关系的理论表示

该研究提出了一种理论方法，将词嵌入和知识图谱中的实体及其关系的几何形状联系起来，以便更好地理解它们的语义结构和性能。

Feb, 2022

银行业的词嵌入

本文研究了使用银行特定语料库构建的词嵌入，相对于使用文本语料库构建的 Word2Vec 或 BERT 嵌入，银行特定语料库的嵌入在银行特定语义和词相关性的捕捉方面表现更好，因此可能成为银行业特定 NLP 任务的一种有效数据源。

Jun, 2023

上下文嵌入概述调查

该综述评估了现有的上下文嵌入模型，跨语言多语预训练，上下文嵌入在下游任务中的应用，模型压缩和分析。

Mar, 2020

解构词嵌入

该论文通过解构方法回顾了词嵌入模型，揭示了诸多缺点和不一致性，包括向量表示的不稳定性、扭曲的类比推理、与语言特征的几何不兼容性以及语料库数据的不一致性，提出了一种新的理论嵌入模型 —— 德里达式嵌入 (Derridian Embedding)，并对现代嵌入模型进行了定性评估，比较了它们与德里达式嵌入的能力是否相当。

Jan, 2019

词向量：一份调查报告

本研究总结了最近的构建定长、密集、分布式单词表示的主要策略，并阐述了这些表示通常被称为单词嵌入，并除了编码出色的句法和语义信息之外，还被证明在许多下游自然语言处理任务中有用的额外特征。

Jan, 2019

Polyglot: 多语言 NLP 的分布式词表示

使用多种语言 Wikipedia 来为 100 多种语言训练单词嵌入表示，并将其应用在词性标注中取得了与英语、丹麦语和瑞典语接近最新成果的表现。此外，通过单词分组的距离等方式，进一步研究了这些嵌入所捕获的语义特征，并将这些嵌入公开以帮助多语言应用的开发和增强.

Jul, 2013

使用通用和特定词嵌入来分类研究的翻译阶段

本文探讨使用无监督学习的方法，通过单词嵌入在词向量空间内学习语义相似性，以实现对文本分类任务的性能优化。研究发现，使用领域特定的词嵌入可以提高分类性能。

May, 2017

上下文词表示：一个上下文介绍

这篇论文介绍了自然语言处理领域的一个分支 —— 词向量，它们的产生、作用、历史发展以及现今面对的挑战，同时讨论了最新的研究成果 —— 上下文词向量。

Feb, 2019

使用本地训练的单词嵌入进行查询扩展

本文研究了词嵌入在查询扩展中的应用，结果表明全局训练的 Word2Vec 和 GloVe 等词嵌入不能很好地完成信息检索任务，建议其他使用全局嵌入的任务也可以受益于使用局部嵌入。

May, 2016