具有鉴别性聚类嵌入的小型文本分类器
本文提出了一种基于多模态的深度学习框架,用于短文本多类别分类,针对于极小数据集,使用了 DISTILBERT 来获取上下文敏感的动态词向量,并取得了在精度、召回率、准确率和 F1 分数上与现有最优方法相同的性能,同时模型体积更小,可以在移动设备上更快、更轻地部署。
Jun, 2022
本文提出了一种基于聚类词向量的文本分类方法,使用 K 均值算法构建超级词向量表征,建立特定于类别的词汇表以提高性能,在主题分类和极性分类任务中表现优异。
Jul, 2017
采用标签 - 词汇联合嵌入法和注意力机制的词嵌入模型,用于文本分类并保持了词嵌入的可解释性,同时提供了利用其他信息的能力。在多个大型文本数据集上实验表明,该方法在准确率和速度方面均优于现有最先进方法。
May, 2018
该论文提出了一种使用少量基向量构建嵌入式编码、使用 Gumbel-softmax 技巧直接学习离散码表的自然语言处理模型压缩方法,并在情感分析和机器翻译任务中实现了 98% 的压缩率,从而达到在不影响性能的前提下减少内存占用的目的,该方法不需要改变网络结构且具有语言无关性。
Nov, 2017
本文提出了一种半监督文本分类的新型和简单的方法 - Delta-training,该方法使用先前预训练好的单词嵌入来初始化分类器的词嵌入,同时使用自训练框架的无标签数据和提前停止的方式来提高性能。
Jan, 2019
研究应用单词嵌入作为分类特征在大规模文本分类中的整合,并考察不同的高效组合函数及其与传统的 one-hot 编码表示相结合的效果。最终,通过实证研究表明这种组合方式在大型多类多标签分类问题中的效率和性能都得到了显著提升。
Jun, 2016
使用聚类方法基于词向量的语言模型,在一个更高语义空间中依据文本回归的特征表现显著优于之前的技术方案,同时具备与文档长度变化相关性自适应的能力。
Sep, 2017
通过增加训练和测试数据的方式,寻找嵌入空间维度的最优值,使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性,在不增加额外数据或使用更深和更复杂的模型的情况下,实验结果表明:(i)重复和随机时间翻转可以将预测误差降低高达 18%。(ii)较低维度嵌入更适合进行验证。(iii)使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。
Jul, 2018