HILL：层次感知的信息无损对比学习用于层次文本分类

ACLMar, 2024

HILL：层次感知的信息无损对比学习用于层次文本分类

HILL: Hierarchy-aware Information Lossless Contrastive Learning for Hierarchical Text Classification

He Zhu, Junran Wu, Ruomei Liu, Yue Hou, Ze Yuan...

TL;DR探索自我监督学习在层次化文本分类中的可行性，并提出一种信息无损对比学习策略：HILL，以保留输入样本中的语义和句法信息并在学习过程中进行融合，实验证明其优越性。

Abstract

Existing self-supervised methods in natural language processing (NLP), especially hierarchical text classification (HTC), mainly focus on self-supervised →

self-supervised methods hierarchical text classification contrastive learning information lossless contrastive learning hill

发现论文，激发创造

检索式上下文学习用于少样本层次文本分类

本研究提出了第一个以预训练语言模型为基础的在语境学习框架来从检索数据库中识别相关演示，并采用迭代策略处理多层次层级标签的少样本分类任务，通过不同目标实现对输入文本的层级分类，得到优越的实验结果，在少样本的层次分类任务中取得了最先进的成果。

Jun, 2024

层次感知联合对比学习实例和标签用于层次多标签文字分类

通过使用层次化多标签文本分类和对比学习的方法，提出了一种叫做 HJCL 的方法来解决半监督学习中样本生成引入噪声的问题，并构造批次数据以实现对比学习目标的完全利用。

Oct, 2023

将层次结构纳入文本编码器：一个基于对比学习的层次文本分类方法

本文提出了一种将层级结构直接嵌入文本编码器的层次引导对比学习（HGCLR）方法，通过此方法，将正样本进行层次指导，以学习生成具备层次感知的文本表示，在三个基准数据集上的实验证明了 HGCLR 的有效性。

Mar, 2022

HiTIN: 面向分层文本分类的层次感知树同构网络

本文提出了 Hierarchy-aware Tree Isomorphism Network (HiTIN) 模型，该模型仅利用标签层次的句法信息增强文本表示，并成功在多个数据集上实现了良好的表现和更少的内存消耗。

May, 2023

基于强化标签分配的层次文本分类

该论文提出使用深度强化学习的方法学习标签分配策略，探索标签的层次结构，并在训练和推断时进行一致的探索决策，以提高层次文本分类的性能。实验结果表明，该方法平均提高了 33.4％的宏平均 F1 得分，并且在五个公共数据集上优于现有的最先进的层次文本分类方法。

Aug, 2019

利用对抗性训练的本地层次化方法进行层次文本分类

本文介绍了一种基于对抗框架的本地层次结构，用于在几乎所有层次文本分类（HTC）模型中优化复杂的分类树形结构，实验证明该本地层次结构有助于处理复杂的分类树形结构并提高稀有类别的分类效果。

Feb, 2024

HTCInfoMax: 基于信息最大化的分层文本分类全局模型

本文介绍了信息最大化方法 HTCInfoMax 来解决现有模型在层次文本分类中存在的问题，包括与样本不相关的标签信息以及未考虑标签统计特性等。我们的方法在建模标签 - 文本间的相互关系、鼓励结构向量学习更好的表示，并能更好地处理标签不平衡问题，实验验证了其有效性。

Apr, 2021

分层信息的重要性：基于树型图神经网络的文本分类

本篇论文研究了利用树形图编码模型进行文本分类，通过对网络结构的最小化熵的优化，提出了一种 HINT 模型，借助树形结构的层次性信息来提升文本分类效果，最终实验结果表明，在流行基准上 HINT 能够明显优于现有的最先进模型。

Oct, 2021

HiGen: 基于层次的层次文本分类序列生成

提出了一种基于语言模型的文本生成框架 HiGen 来解决多标签文本分类下的层次分类问题，通过动态文本表示方法和层级引导的损失函数，结合任务特定的预训练策略，处理数据和减轻类别不平衡问题，在 ENZYME、WOS 和 NYT 数据集上展示出优越性能。

Jan, 2024

HPT: 针对分层文本分类的层次感知提示调整

本研究提出了一种分层感知提示调节方法（HPT）来处理多标签文本分类（HTC），通过构建动态虚拟模板和标记词，融合标记层次结构知识并引入零界多标签交叉熵损失，以提高预训练语言模型在 HTC 领域的性能，实验结果表明 HPT 在三组常用数据集上均取得了最先进的表现，能够有效地处理平衡不足和低资源情况。

Apr, 2022