使用标签自编码器改进大规模 k 近邻文本分类

Feb, 2024

使用标签自编码器改进大规模 k 近邻文本分类

Improving Large-Scale k-Nearest Neighbor Text Categorization with Label Autoencoders

Francisco J. Ribadas-Pena, Shuyuan Cao, Víctor M. Darriba Bilbao

TL;DR本研究提出了一种多标签懒惰学习方法，以解决在存在高互相关联的复杂结构标签词汇的大型文档集合中的自动语义索引问题。该方法是传统 k 最近邻算法的演化，它使用经过训练的大型自编码器将大标签空间映射到较小的潜空间，并从该潜空间重新生成预测的标签。我们在 MEDLINE 生物医学文档集的大部分中使用医学主题词（MeSH）词库作为受控词汇对我们的提案进行了评估，实验中我们提出并评估了多种文档表示方法和不同的标签自编码器配置。

Abstract

In this paper, we introduce a multi-label lazy learning approach to deal with automatic semantic indexing in large document collections in

multi-label lazy learning semantic indexing large document collections label vocabularies autoencoder

发现论文，激发创造

多标签分类任务的深度潜变空间学习

本文提出了一种基于深度神经网络的模型 Canonical Correlated AutoEncoder（C2AE），在多标签分类任务中通过联合特征和标签嵌入派生一个深度潜在空间，并引入标签相关敏感的损失函数来恢复预测的标签输出，其能够灵活应对多种规模的数据集，与其他现有的多标签分类方法相比表现更加优异。

Jul, 2017

情感分析半监督自编码器

研究使用自编码器进行文本数据建模的监督学习方法，并利用 Bregman 散度加权得到自编码器的新损失函数，在 6 个情感分析数据集上显示其比竞争方法更有效，并同时展示了该模型能够利用无标签数据进行改进。

Dec, 2015

基于排序的自编码器极端多标签分类

本文提出了基于深度学习的 XML 方法，采用基于词向量的自注意力和基于排序的自编码器，不仅能处理特征和标签之间的依赖关系，同时也可以考虑标签之间的依赖关系，该方法在标准数据集上表现优异。

Apr, 2019

文本异常检测的鲁棒自编码器集成方法

通过引入鲁棒自编码器集成方法，优化原始数据编码嵌入的局部鲁棒子空间恢复，利用 k 近邻的几何属性来优化子空间恢复，检测文本数据中的异常模式。通过实验设置以及详尽的实验结果评估表明，该鲁棒自编码器集成方法在检测独立异常和情境异常时具有高效性、稳健性和性能优势。

May, 2024

使用监督自编码器的半监督分类在生物医学应用中的应用

这篇文章介绍了一种新的半监督分类方法，该方法使用监督自编码器网络，将标签编码到自编码器的潜空间，并定义一个结合分类和重构损失的全局准则，用 PyTorch 实现该半监督自编码器方法并展示其在生物医学应用中的卓越表现。

Aug, 2022

通过自标记条件变分自编码器提高多样文本生成

本文介绍了一种基于自标记变分自编码器（SLCVAE）的方法，以解决 CVAE 模型中 KL-vanishing 问题，提高文本生成多样性。同时，提供了一个大型本地一对多数据集，支持此方法的研究。

Mar, 2019

通过 LLMs 潜空间增强上下文分类

使用转换器模型从维基百科数据集及其相关类别中提取语义信息，通过不同方法对类别的语义特征进行评估和增强，以提高数据组织的语义准确性。

Apr, 2024

半监督文本分类的变分自编码器

提出了一种半监督顺序变分自编码器 (SSVAE) 用于文本分类，在解码器中增加了标签信息，并使用一种新颖的优化方法减少了训练中的计算复杂性，实验结果表明该方法在 IMDB 数据集和 AG 新闻语料库上的分类精度显著提高，与之前的先进方法相当。

Mar, 2016

协同过滤的深度自编码器训练

本文提出了一种基于深度自编码器的新模型，通过对 Netflix 数据集进行评分预测任务，相对于之前的模型具有明显优势。该模型不需要层预训练，采用 6 层自编码器进行端到端的训练，通过实验证明：深度自编码器模型的泛化能力比浅层模型更好，负部分的非线性激活函数对于训练深度模型至关重要，必须大量采用正则化技术，如 dropout，以防止过拟合。此外，我们提出了一种基于迭代输出反馈的训练算法，以克服协作过滤的自然稀疏性，该算法显著加速了训练并改善了模型性能。

Aug, 2017

用去噪自编码器进行无监督自然语言生成

使用去噪自编码器对有噪声的结构化数据进行训练，能够在自然语言生成的任务上取得比监督学习更高的性能表现。

Apr, 2018