检索增强多标签文本分类

May, 2023

Retrieval-augmented Multi-label Text Classification

Ilias Chalkidis, Yova Kementchedjhieva

TL;DR本文提出了一种检索增强的方法来解决具有 Zipfian 分布标签支持的大标签集情况下的多标签文本分类问题，并通过交叉关注和检索来改善分类模型的样本效率，实验证明这种方法在标签分布偏斜、低资源训练和长文档数据情境下显著提高了模型性能。

Abstract

multi-label text classification (MLC) is a challenging task in settings of large label sets, where label support follows a zipfian distribution. In this paper, we address this problem through →

multi-label text classification zipfian distribution transformer-based encoder cross-attention retrieval augmentation

发现论文，激发创造

极端多标签分类中的数据增广

本文针对极端多标签分类（XMC）问题，提出了一种基于数据增强的分类方法，该方法利用预训练的 GPT-2 模型生成输入文本的无标记扰动以增强现有训练数据，并与使用 RoBERTa 的标签注意分类器相结合，取得了较优效果。

Sep, 2020

利用多任务学习增强多标签文本分类中的标签相关反馈

通过引入多任务学习和标签相关性反馈机制来增强标签相关性学习，其中采用文档 - 标签交叉注意力机制来生成一个更具有区分度的文档表示，以及两个辅助标签共现预测任务来增强标签相关性学习，实验结果表明，我们的方法在 AAPD 和 RCV1-V2 数据集上优于竞争性基线方法。

Jun, 2021

基于检索的长尾视觉识别分类

提出了 Retrieval Augmented Classification (RAC) 方法，并应用于解决长尾分类问题，通过显式引入检索模块，使用非参数化外部内存信息显著提高了 Places365-LT 和 iNaturalist-2018 数据集的性能，尤其是在尾部类别上，为计算机视觉体系结构中更有效地利用外部存储器提供了替代方案。

Feb, 2022

合适的模型：法律多标签分类基线的评估

在这项工作中，我们使用两个公共法律数据集 POSTURE50K 和 EURLEX57K，通过改变训练数据量和标签数量，评估了不同的多标签分类方法，结果显示 DistilRoBERTa 和 LegalBERT 在法律多标签分类中表现良好，而 T5 在生成模型中表现相当，并且 CrossEncoder 在提高宏 F1 分数方面具有潜力，尽管计算成本增加。

Jan, 2024

多标签文本分类中用平衡更新和集体损失替代数据注释

通过使用预训练语言模型，在低监督情况下有效提高多标签文本分类性能的方法。

Sep, 2023

基于注意力图神经网络的多标签文本分类

本文介绍了一种基于图注意力网络的模型，用于捕捉标签之间的关注依赖结构。该模型使用特征矩阵和相关矩阵来探索标签之间的关系，并生成可用于端到端训练的分类器。该模型在 5 个真实的多标签文本分类数据集上表现出与先前的最先进模型相似或更好的性能。

Mar, 2020

基于混合注意力机制的标签感知文档表示法用于极端多标签文本分类

该研究提出了一种名为 LAHA 的模型，该模型利用文本内容和标签关联性之间的语义关系，建立了一个显式的标签感知表征，特别是在尾标签的情况下，使得模型在非常大规模的标签集中的文本标记任务中表现出了卓越性能。

May, 2019

基于元数据诱导的对比学习，用于零样本多标签文本分类

本研究使用元数据引导对比学习的方法来训练文本分类模型，从而在没有标注文件的情况下，提供更好的多标签文本分类性能，特别是在训练数据呈现长尾标签分布时。

Feb, 2022

RAR: 检索与排序增强型 MLLM 用于视觉识别

CLIP 和 Multimodal Large Language Models（MLLMs）在识别广泛的候选人方面具有优势，RAR 结合了两种方法的优点，并通过建立多模式检索器和对 MLLMs 进行排名来提高对广泛和细粒度词汇的几次 / 零次识别能力，该方法在细粒度视觉识别、几次拍摄图像识别和零次识别设置下的物体检测等任务中显著提升了准确性。

Mar, 2024

KeNet: 知识增强的 Doc-Label 注意力网络用于多标签文本分类

提出一种名为 Knowledge-enhanced Doc-Label Attention Network (KeNet) 的新方法，通过综合的文档、知识和标签表示来预测每个文本的所有标签，并在多个多标签数据集上进行了综合验证，实验证明我们的方法优于现有的多标签文本分类方法。

Mar, 2024