基于元数据诱导的对比学习,用于零样本多标签文本分类
本研究在多个数据集上评估了多种 Large-scale Multi-label Text Classification 方法,发现基于概率标签树的层次分类方法优于 Label-Wise Attention Networks。另外,结合 Transformer 的方法在两个数据集上实现了优秀的性能,同时提出了一种新的最先进的方法,将 BERT 与 LWANs 相结合。此外,还引入了图形感知注释接近度度量,提出了利用标签层次结构来改进少量和零 - shot 学习的新模型。
Oct, 2020
我们进行了关于有监督对比学习在多标签文本分类中的影响以及如何构建稳健的表示空间的研究,提出了一种新的对比损失函数,并在三个多标签数据集上实现了显著的宏 F1 分数改进。
Apr, 2024
本文提出了一种使用预训练的 Transformer 编码器通过自监督对比损失学习实例和标签的语义嵌入的方法,即 MACLR,以解决极端多标签文本分类问题,包括 GZ-XMC、Extreme Zero-Shot XMC 和 Few-Shot XMC,在多个公共 EZ-XMC 数据集上实现了更好的性能。
Dec, 2021
我们提出了一种简单但有效的方法来将任务上下文化为特定的大语言模型,通过观察给定的大语言模型如何描述目标数据集,聚合大语言模型的开放式推理结果,并最终将聚合的元信息纳入实际任务中,我们展示了这种方法在文本聚类任务中的有效性,并通过上述过程的示例突出了上下文化的重要性。
Jun, 2024
本文提出了一种检索增强的方法来解决具有 Zipfian 分布标签支持的大标签集情 况下的多标签文本分类问题,并通过交叉关注和检索来改善分类模型的样本效率,实验证明这种方法在标签分布偏斜、低资源训练和长文档数据情境下显著提高了模型性能。
May, 2023
通过引入多任务学习和标签相关性反馈机制来增强标签相关性学习,其中采用文档 - 标签交叉注意力机制来生成一个更具有区分度的文档表示,以及两个辅助标签共现预测任务来增强标签相关性学习,实验结果表明,我们的方法在 AAPD 和 RCV1-V2 数据集上优于竞争性基线方法。
Jun, 2021
该研究在法律领域考虑了大规模多标签文本分类,提出了一个适用于 LMTC、few - 和 zero-shot 学习的新数据集 EURLEX,共包含 57k 个法律文档,注释有~4.3k 个 EUROVOC 标签;实验表明,具有标签注意力的 BIGRU 模型优于当前其他最先进的模型;领域特定的 WORD2VEC 和上下文敏感的 ELMO 嵌入进一步提高了性能;研究人员还发现,只考虑文档中的特定区域就足够了,这使得我们可以规避 BERT 的最大文本长度限制,并使用 fine-tune BERT 在所有情况下获得了最佳结果。
Jun, 2019
本研究使用了匹配方法,并对零样本学习中的半结构化文档分类任务进行了探索,使用对位对比目标来加强监督和无监督的零样本学习,显著提高了宏 F1 的结果。
Oct, 2022
通过使用层次化多标签文本分类和对比学习的方法,提出了一种叫做 HJCL 的方法来解决半监督学习中样本生成引入噪声的问题,并构造批次数据以实现对比学习目标的完全利用。
Oct, 2023