跨编码作为增强方式：朝着有效的教育文本分类

May, 2023

跨编码作为增强方式：朝着有效的教育文本分类

Cross Encoding as Augmentation: Towards Effective Educational Text Classification

Hyun Seung Lee, Seungtaek Choi, Yunsung Lee, Hyeongdon Moon, Shinhyeok Oh...

TL;DR本文提出了一种检索方法 CEAA，可以有效解决教育文本分类中的多标签、低资源等数据匮乏问题，其主要贡献是将迁移学习和跨编码器样式文本引入到双编码器结构中，以提高推理效率。实验表明，该方法比现有模型更有效。

Abstract

text classification in education, usually called auto-tagging, is the automated process of assigning relevant tags to educational content, such as questions and textbooks. However, →

text classification auto-tagging data scarcity retrieval approach ceaa

发现论文，激发创造

检索增强多标签文本分类

本文提出了一种检索增强的方法来解决具有 Zipfian 分布标签支持的大标签集情况下的多标签文本分类问题，并通过交叉关注和检索来改善分类模型的样本效率，实验证明这种方法在标签分布偏斜、低资源训练和长文档数据情境下显著提高了模型性能。

May, 2023

Text AutoAugment: 学习文本分类的组合增强策略

Text AutoAugment 是一种数据增强方法，通过贝叶斯优化算法自动寻找最佳组合操作作为增强策略应用于训练数据。该方法显著提高了模型的泛化能力，并在六个基准数据集上表现突出，特别是在低资源和类不平衡情况下，相应的分类准确率平均分别提高了 8.8% 和 9.7%。

Sep, 2021

多标签分类任务的深度潜变空间学习

本文提出了一种基于深度神经网络的模型 Canonical Correlated AutoEncoder（C2AE），在多标签分类任务中通过联合特征和标签嵌入派生一个深度潜在空间，并引入标签相关敏感的损失函数来恢复预测的标签输出，其能够灵活应对多种规模的数据集，与其他现有的多标签分类方法相比表现更加优异。

Jul, 2017

电子商务中使用数据增强实现一致的文本分类

本文提出了一种新框架来解决电子商务数据分类的问题，采用半监督学习方法进行数据增强，提高模型的一致性并保持其生产水平性能。

May, 2023

使用标签自编码器改进大规模 k 近邻文本分类

本研究提出了一种多标签懒惰学习方法，以解决在存在高互相关联的复杂结构标签词汇的大型文档集合中的自动语义索引问题。该方法是传统 k 最近邻算法的演化，它使用经过训练的大型自编码器将大标签空间映射到较小的潜空间，并从该潜空间重新生成预测的标签。我们在 MEDLINE 生物医学文档集的大部分中使用医学主题词（MeSH）词库作为受控词汇对我们的提案进行了评估，实验中我们提出并评估了多种文档表示方法和不同的标签自编码器配置。

Feb, 2024

语言量化自编码器：朝向无监督的文本图像对齐

通过引入 Language-Quantized AutoEncoder (LQAE) 这一基于无监督方法的模型，利用预训练语言模型（如 BERT，RoBERTa）来解决大型语言模型缺乏图像感知的问题，并有效地将图像和文本信息进行对齐，通过 LQAE 学习将图像编码为一系列文本符号，使 LQAE 能够将不对齐的图像用于多模态任务，以及使用 BERT 文本特征对图像进行线性分类。

Feb, 2023

通过预训练对比度 EEG-Text 掩蔽自编码器的可转移表示增强 EEG 到文本解码

提出了一种新颖的 Contrastive EEG-Text Masked Autoencoder 模型，并借助预训练模块以及 EEG 流实现了 EEG 到文本的解码，实验结果表明在文本激发的 EEG 数据库上，该模型在 ROUGE-1 F1 和 BLEU-4 得分上分别超过现有技术 8.34％和 32.21％，这显示了该框架在大脑计算界面应用领域的潜力。

Feb, 2024

通过优化音频编码增强基于大型语言模型的自动音频字幕生成

增强自动音频字幕生成的方法通过预训练音频编码器、查询变换器和大语言模型，改善了音频标记的准确性和结果性能。

Jun, 2024

基于对比学习的自动音频字幕交互式音频文本表示

本文介绍了一种名为 CLIP-AAC 的自动音频字幕系统，该系统结合声学和文本信息学习交互式跨模态表示，并应用对比学习来缩小领域差异，实验结果表明该方法在 NLP 评估标准上显著优于基线方法，表明预训练模型和对比学习对该模型的性能提升贡献都非常重要。

Mar, 2022

利用文本数据增强语音转文本任务的通用多任务学习框架

本文提出了一种多任务学习框架，利用文本数据来提高自动语音识别和语音翻译的性能，其中包括基于注意力的序列到序列建模、去噪自动编码器、机器翻译等技术。在英语语音识别任务中，该方法相对于基线线下降了 10~15% 的词错误率，在 MuST-C 任务中有 3.6~9.2 BLEU 的提高。

Oct, 2020