具有鉴别性聚类嵌入的小型文本分类器

ACLJun, 2019

具有鉴别性聚类嵌入的小型文本分类器

Smaller Text Classifiers with Discriminative Cluster Embeddings

Mingda Chen, Kevin Gimpel

TL;DR通过学习硬词聚类并使用 Gumbel-Softmax 分布最大化潜在聚类并最小化任务误差，我们减少了神经自然语言处理方法中嵌入参数的模型大小。我们提出了一些变体，可以选择性地为单词分配额外的参数，从而在仍然保持参数有效的情况下进一步提高准确性。

Abstract

word embedding parameters often dominate overall model sizes in neural methods for natural language processing. We reduce deployed model sizes of text classifiers by learning a hard word clustering in an end-to-end manner. We use the →

word embedding neural methods text classifiers gumbel-softmax task loss

发现论文，激发创造

一种基于多模型的深度学习框架，用于处理不平衡和非常小的数据集进行短文本多分类

本文提出了一种基于多模态的深度学习框架，用于短文本多类别分类，针对于极小数据集，使用了 DISTILBERT 来获取上下文敏感的动态词向量，并取得了在精度、召回率、准确率和 F1 分数上与现有最优方法相同的性能，同时模型体积更小，可以在移动设备上更快、更轻地部署。

Jun, 2022

从图像到文本分类：一种基于聚类词嵌入的新方法

本文提出了一种基于聚类词向量的文本分类方法，使用 K 均值算法构建超级词向量表征，建立特定于类别的词汇表以提高性能，在主题分类和极性分类任务中表现优异。

Jul, 2017

针对任务的嵌入用于前处理可解释文本分类

本文提出了一种基于 k 最近邻分类的替代方法，学习任务特定的文本嵌入表示方式，从而实现解释性和增量学习，而不影响分类准确性。

Nov, 2022

文字分类的词与标签联合嵌入

采用标签 - 词汇联合嵌入法和注意力机制的词嵌入模型，用于文本分类并保持了词嵌入的可解释性，同时提供了利用其他信息的能力。在多个大型文本数据集上实验表明，该方法在准确率和速度方面均优于现有最先进方法。

May, 2018

深度组合编码学习压缩词向量

该论文提出了一种使用少量基向量构建嵌入式编码、使用 Gumbel-softmax 技巧直接学习离散码表的自然语言处理模型压缩方法，并在情感分析和机器翻译任务中实现了 98% 的压缩率，从而达到在不影响性能的前提下减少内存占用的目的，该方法不需要改变网络结构且具有语言无关性。

Nov, 2017

Delta-training: 使用预训练词嵌入的简单半监督文本分类

本文提出了一种半监督文本分类的新型和简单的方法 - Delta-training，该方法使用先前预训练好的单词嵌入来初始化分类器的词嵌入，同时使用自训练框架的无标签数据和提前停止的方式来提高性能。

Jan, 2019

使用 skip-gram 嵌入的大规模文本分类的实证研究

研究应用单词嵌入作为分类特征在大规模文本分类中的整合，并考察不同的高效组合函数及其与传统的 one-hot 编码表示相结合的效果。最终，通过实证研究表明这种组合方式在大型多类多标签分类问题中的效率和性能都得到了显著提升。

Jun, 2016

利用词嵌入进行聚类的语言模型用于文本可读性评估

使用聚类方法基于词向量的语言模型，在一个更高语义空间中依据文本回归的特征表现显著优于之前的技术方案，同时具备与文档长度变化相关性自适应的能力。

Sep, 2017

说话人识别的统一超球嵌入

通过增加训练和测试数据的方式，寻找嵌入空间维度的最优值，使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性，在不增加额外数据或使用更深和更复杂的模型的情况下，实验结果表明：（i）重复和随机时间翻转可以将预测误差降低高达 18%。（ii）较低维度嵌入更适合进行验证。（iii）使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。

Jul, 2018

通过稀疏词表示压缩神经语言模型

本文提出使用稀疏单词表示来压缩神经语言模型的参数量，以减少计算资源需求并提高性能表现。

Oct, 2016