上下文传播的术语权重用于文档表示

Jun, 2019

上下文传播的术语权重用于文档表示

Contextually Propagated Term Weights for Document Representation

Casper Hansen, Christian Hansen, Stephen Alstrup, Jakob Grue Simonsen, Christina Lioma

TL;DR提出了一种新模型，通过给类似语境中出现的单词重新分配其权重，模拟了在相似语境中单词之间的语义共享，并将其纳入单词袋文档表示法中，从而在无监督设置下在难度逐渐增加的数据集上获得了最好的微观和宏观F1分数，针对的研究主题是单词嵌入和语义含义。

Abstract

word embeddings predict a word from its neighbours by learning small, dense embedding vectors. In practice, this prediction corresponds to a semantic score given to the predicted word (or term weight). We present a novel model that, given a →

发现论文，激发创造

基于计数模型的词向量表示恢复

该研究是关于使用基于计数的模型来提取文本的语义表征，使用Hellinger距离用于处理大型语料库中的单词共现统计数据，并获得了很好的性能表现。

Dec, 2014

使用通用和特定词嵌入来分类研究的翻译阶段

本文探讨使用无监督学习的方法，通过单词嵌入在词向量空间内学习语义相似性，以实现对文本分类任务的性能优化。研究发现，使用领域特定的词嵌入可以提高分类性能。

May, 2017

无监督句子表示作为词语信息系列：重访 TF-IDF

本文提出了一种利用加权词向量嵌入学习无标注句子表示的无监督方法，通过TF-IDF变换提供的Shannon词熵拟合词向量的权重，选择不同的超参得出短期训练、在线推理的句子表示，经过与STS系统的对比表明，该方法在语义文本相似度模型中的表现已达到最优。

Oct, 2017

从词到义项嵌入：对意义向量表示的调查

此研究综述了分布式语义表示的理论背景，介绍了从单词级别向更精细的词义级别转化的方法，并提供了对两种主要分支进行的广泛技术概述；最终，对其重要方面进行了分析与评估。

May, 2018

使用子词袋来泛化字嵌入

本文提出了一种基于子词级别的词向量生成模型来解决传统词向量模型无法应对未登录词、破音字等问题，并在英文词汇相似性任务和23种语言的词性标注和变形属性的联合预测任务中实现了最优表现。

Sep, 2018

学习新词的语义表示：利用形式和语境

本研究提出了一种基于表面形式和上下文信息两种方式的词嵌入方法，取得了在Definitional Nonce和Contextual Rare Words数据集上的最好效果，可以帮助处理NLP中的生词。

Nov, 2018

通过对齐异构词汇语义空间实现未见词表示

本文提出了一种利用词典等词汇资源，采用图嵌入和跨语言向量空间转换技术，为未见过的单词诱导嵌入的方法，对多个基准测试进行了优化，表现出一致的性能提升。

Nov, 2018

动态语境词嵌入

本研究提出基于预训练语言模型的动态情境词向量，能够以语言和非语言环境为依据来表征单词的含义变化，并在四个英文数据集上做出定性和定量分析，以彰显其应用潜力。

Oct, 2020

探索词语和关系的理论表示

该研究提出了一种理论方法，将词嵌入和知识图谱中的实体及其关系的几何形状联系起来，以便更好地理解它们的语义结构和性能。

Feb, 2022

优化距离加权和窗口大小调度的词向量学习

提出了 Learnable Formulated Weights (LFW) 和 Epoch-based Dynamic Window Size (EDWS) 两种新的方法，用于改进 Word2Vec 的性能，加强了 Word2Vec 在 NLP 文本建模中的表现。

Apr, 2024