基于 N-gram 的文本低维度表示方法用于文档分类

ICLRDec, 2014

基于 N-gram 的文本低维度表示方法用于文档分类

N-gram-Based Low-Dimensional Representation for Document Classification

Rémi Lebret, Ronan Collobert

TL;DR本文提出了一种使用 n-grams 的 BOW 模型，通过调用 Skip-gram 模型快速获得单词向量表示并将其平均以获得 n-grams 的表征，从而在低维度空间中为所有 n-grams 维护了相同的语义信息，使用 K-means 聚类将语义概念分组以大大减少特征数量，最终展示了在情感分类任务中胜过 LSA 和 LDA，与传统的 BOW 模型相比，具有更少的特征但类似的结果。

Abstract

The bag-of-words (BOW) model is the common approach for classifying documents, where words are used as feature for training a classifier. This generally involves a huge number of features. Some techniques, such as Latent Semantic Analysis (LSA) or latent dirichlet allocation (LDA), hav

bag-of-words model latent semantic analysis latent dirichlet allocation n-grams k-means clustering

发现论文，激发创造

使用子词信息丰富单词向量

本文提出一种基于 skip-gram 模型的新方法，其中每个单词被表示为一组字符 n-grams 的加和。该方法快速、可在大型语料库上快速训练模型，同时可以计算未出现在训练数据中的单词的表示。我们在九种不同的语言上评估了我们的单词表示，通过与最近提出的形态单词表示进行比较，我们发现我们的向量在这些任务上达到了最先进的性能。

Jul, 2016

句子和文本的分布式表示

提出了一种名为 “Paragraph Vector” 的无监督算法，用于从文本段落、句子和文档等长度可变的文本片段中学习固定长度的特征表示，该算法能够克服 Bag-of-words 模型的两个主要弱点，经实验证明，Paragraph Vectors 在文本分类和情感分析任务上取得了新的最佳表现。

May, 2014

通过预测 N 元语法组合来学习文档嵌入，用于长篇电影评论的情感分类

通过改进 Paragraph Vector 的架构，使其可以学习预测单词和 n-gram 特征的文档向量，捕捉了文档中的语义和单词顺序，从而在 IMDB 电影评论数据集上实现比其他模型更好的情感分类结果，同时保持了向量的表达能力。

Dec, 2015

从图像到文本分类：一种基于聚类词嵌入的新方法

本文提出了一种基于聚类词向量的文本分类方法，使用 K 均值算法构建超级词向量表征，建立特定于类别的词汇表以提高性能，在主题分类和极性分类任务中表现优异。

Jul, 2017

知识图谱嵌入的快速线性模型

本文表明，基于词袋 (BoW) 的简单基线学习到出人意料的知识图谱嵌入。通过将知识库补全和问题回答转化为监督分类问题，我们观察到建模实体和关系的共现可以在几分钟的培训时间内获得最先进的性能，使用开源库 fastText。

Oct, 2017

使用子词袋来泛化字嵌入

本文提出了一种基于子词级别的词向量生成模型来解决传统词向量模型无法应对未登录词、破音字等问题，并在英文词汇相似性任务和 23 种语言的词性标注和变形属性的联合预测任务中实现了最优表现。

Sep, 2018

静态模糊词袋：一种轻量级的句子嵌入算法

该研究提出了一种名为 Static Fuzzy Bag-of-Word 模型的方法，可以在对计算资源的要求较低的情况下，为句子提供预定义维度的嵌入向量，并在语义文本相似性基准中表现出竞争性能。

Apr, 2023

将句子表示为低秩子空间

研究发现句子的词向量表示一般都集中在一个低秩子空间内，通过基于该子空间的无监督表示法在 19 个数据集上测试，平均优于 skip-thought vectors 等神经网络模型 15%。

Apr, 2017

利用预训练嵌入和句子袋高效灵活地主题建模

本文提出了一种基于句子嵌入和生成过程模型相结合的话题建模和推断算法，使用期望最大化、硬分配和退火过程推导出快速推理算法。在评估中，我们的方法以相对较少的计算要求取得了最先进的结果。

Feb, 2023

基于分布式词袋模型的多文档摘要

本文提出了一种无监督基于质心的文档级重构框架，利用分布式词袋模型来选择摘要句以最小化摘要和文档之间的重构误差，并应用句子选择和波束搜索来进一步提高模型性能。针对两个不同的数据集实验结果表明，与现有基线相比，我们的模型表现出显著的性能提升。

Oct, 2017