在多维连续特征空间中寻找判别性词语

Nov, 2022

在多维连续特征空间中寻找判别性词语

Searching for Discriminative Words in Multidimensional Continuous Feature Space

Marius Sajgalik, Michal Barla, Maria Bielikova

TL;DR使用单词特征向量以及无监督学习，提取文档中的独立特征词，构建文档特征向量，并在文本分类任务中证明了该方法的有效性。

Abstract

word feature vectors have been proven to improve many NLP tasks. With recent advances in unsupervised learning of these feature vectors, it became possible to train it with much more data, which also resulted in

word feature vectors unsupervised learning text categorisation discriminative keywords latent topics

发现论文，激发创造

无监督，高效和语义型专家检索

本文引入了一种无监督的辨别模型，用于在线文档检索。我们仅使用文本证据，通过无监督学习分布式词表示来避免显式特征工程。我们将我们的模型与最先进的无监督统计向量空间和概率生成方法进行比较，并发现我们的模型在大多数情况下可以与监督方法匹配，且算法成本较低，因此可以取得与所谓的基于档案的方法相同的检索性能水平。

Aug, 2016

辨识和解释有差别的属性

本文提出了一种明确的单词向量表示模型（WVM），并使用三种不同类型的数据库：字典定义，图像和常识知识图谱，旨在支持较好的歧义词汇特征识别。这些数据源具有互补语义方面，展示了明确向量空间的创建过程，最终比较了这些向量空间对于歧义词汇识别的性能表现。结果表明，明确向量空间具有很高的可解释性和透明性，并且在该任务中表现出相当竞争的性能。

Sep, 2019

判别学习的得分函数特征

本论文提出一种新颖的矩阵值和张量值特征，可以利用未标记的样本进行预训练，并给出了有效算法来提取判别信息。通过在矩阵和张量上应用高阶评分函数，我们可以提取丰富的判别信息，并建立了理论框架来描述与标记样本一起使用评分函数特征所提取的判别信息的性质。最终，我们提出了一种新的框架来利用输入的生成模型进行判别学习。

Dec, 2014

特征合奏：判别特征选择遇见无监督聚类

本文提出了一种高效的算法，以一种高效、紧凑的方式从候选项中发现输入特征或分类器的稀疏表示，用于大规模识别，并在训练速度和性能方面显着优于传统方法和强大的分类器，特别是在有限的训练数据的情况下。

Nov, 2014

判别学习的得分函数特征：矩阵和张量框架

本文提出一种基于高阶得分函数的矩阵和张量特征，通过使用未标记的样本进行预训练，然后使用高效算法从这些预训练的特征和有标记的样本中提取区分信息，最后提出了一种利用输入的生成模型进行区分学习的新框架。

Dec, 2014

产品搜索的潜在向量空间学习

本文提出了一种新型的潜向量空间模型，可在无需明确注释的情况下，联合学习单词、电子商务产品的潜在表示以及两者之间的映射，能直接建模产品与特定单词之间的鉴别关系，并在学习排序库特征方面证明其性能优越性。

Aug, 2016

非分布式词向量表示

该研究介绍了一种从手工构造的语言资源（如 WordNet、FrameNet 等）中构建解释性词向量的方法，这些向量是二进制的（即仅包含 0 和 1），且稀疏率达到 99.9%。该方法在词向量分布模型的最新评估方法上表现良好，竞争力强。

Jun, 2015

文本分类中的误差驱动学习

针对文本分类任务，本研究提出了一种基于 Littlestone's Winnow 算法的学习算法，利用线性分离器对测量文本特征空间的高度稀疏性和高维度等特性进行分类，通过训练阶段中的特定技术进一步改进算法，从而显著提高算法的性能。

Jun, 1997

TF-IDF 特征加权方法的比较研究及其在非结构化数据集上的分析

文本分类与特征加权方法，包括 N-Grams 和 TF-IDF，使用随机森林分类器实现最高的准确度（93.81%），精确度（94.20%），召回率（93.81%）和 F1-score（91.99%）值。

Aug, 2023

多标签文档分类的统计主题模型

本文探讨生成性统计主题模型在多标签文档分类中的应用，相对于判别性模型，在包含大量稀有标签和高度倾斜标签分布等实际数据集的分类问题中有优越性。实验结果表明，相较于判别性方法，概率生成模型在多标签分类方面表现优异。

Jul, 2011