- 检索式上下文学习用于少样本层次文本分类
本研究提出了第一个以预训练语言模型为基础的在语境学习框架来从检索数据库中识别相关演示,并采用迭代策略处理多层次层级标签的少样本分类任务,通过不同目标实现对输入文本的层级分类,得到优越的实验结果,在少样本的层次分类任务中取得了最先进的成果。
- 重要学术会议论文的层次主题分类
本文发展了一个用于层次化文本分类的决策支持系统,提出了一种加权层次化相似性函数来计算主题的相关性,并使用熵来估计权重。通过与其他方法比较,该加权层次化相似性函数在主题排名准确性方面有了更好的改进。
- ACLHILL:层次感知的信息无损对比学习用于层次文本分类
探索自我监督学习在层次化文本分类中的可行性,并提出一种信息无损对比学习策略:HILL,以保留输入样本中的语义和句法信息并在学习过程中进行融合,实验证明其优越性。
- TELEClass: 在最小监督下的分类法丰富和 LLM 增强的分层文本分类
通过自动丰富标签分类法和利用大型语言模型来进行弱监督的分层文本分类,我们的方法 TELEClass 在两个公共数据集上表现优于先前的弱监督分层文本分类方法和基于零样本提示的大型语言模型方法。
- COLING利用对抗性训练的本地层次化方法进行层次文本分类
本文介绍了一种基于对抗框架的本地层次结构,用于在几乎所有层次文本分类(HTC)模型中优化复杂的分类树形结构,实验证明该本地层次结构有助于处理复杂的分类树形结构并提高稀有类别的分类效果。
- HiGen: 基于层次的层次文本分类序列生成
提出了一种基于语言模型的文本生成框架 HiGen 来解决多标签文本分类下的层次分类问题,通过动态文本表示方法和层级引导的损失函数,结合任务特定的预训练策略,处理数据和减轻类别不平衡问题,在 ENZYME、WOS 和 NYT 数据集上展示出优 - ACL针对少样本分层文本分类的分层生成器
此文提出了采用多 verbalizer 框架的层级文本分类方法以解决少样本低资源问题,该方法将标签层次结构嵌入到 verbalizer 中,显著优于采用图编码器注入层次结构的方法,结果表明此方案可极大地提高层级分类性能
- ACLHiTIN: 面向分层文本分类的层次感知树同构网络
本文提出了 Hierarchy-aware Tree Isomorphism Network (HiTIN) 模型,该模型仅利用标签层次的句法信息增强文本表示,并成功在多个数据集上实现了良好的表现和更少的内存消耗。
- EMNLP利用全局和局部层次结构进行层次文本分类
本研究提出了一个使用 Hierarchy-guided BERT with Global and Local hierarchies (HBGL) 方法来处理层级文本分类中的全局和本地层次结构,并将其应用于三个基准数据集,取得显著的改善。
- EMNLPHPT: 针对分层文本分类的层次感知提示调整
本研究提出了一种分层感知提示调节方法(HPT)来处理多标签文本分类(HTC),通过构建动态虚拟模板和标记词,融合标记层次结构知识并引入零界多标签交叉熵损失,以提高预训练语言模型在 HTC 领域的性能,实验结果表明 HPT 在三组常用数据集上 - SIGIR层次文本分类的约束序列到树生成
本文提出一种基于序列生成的序列到树框架(Seq2Tree)用于建模层次标签结构的方法,在约束解码策略的基础上,使用动态词汇来保证结果的标签一致性,相较于以往的方法,在三个基准数据集上实现了显著且一致的改进。
- ACL将层次结构纳入文本编码器:一个基于对比学习的层次文本分类方法
本文提出了一种将层级结构直接嵌入文本编码器的层次引导对比学习(HGCLR)方法,通过此方法,将正样本进行层次指导,以学习生成具备层次感知的文本表示,在三个基准数据集上的实验证明了 HGCLR 的有效性。
- ACLHTCInfoMax: 基于信息最大化的分层文本分类全局模型
本文介绍了信息最大化方法 HTCInfoMax 来解决现有模型在层次文本分类中存在的问题,包括与样本不相关的标签信息以及未考虑标签统计特性等。我们的方法在建模标签 - 文本间的相互关系、鼓励结构向量学习更好的表示,并能更好地处理标签不平衡问 - ACL层次文本分类的高效策略:外部知识和辅助任务
本文利用类定义的词嵌入作为条件来预测下一层分类,并采用合适的搜索方法,以较少的参数数在两个著名的英语数据集上优于先前的研究。
- EMNLP基于强化标签分配的层次文本分类
该论文提出使用深度强化学习的方法学习标签分配策略,探索标签的层次结构,并在训练和推断时进行一致的探索决策,以提高层次文本分类的性能。实验结果表明,该方法平均提高了 33.4%的宏平均 F1 得分,并且在五个公共数据集上优于现有的最先进的层次 - WWW半监督和弱监督的层次文本分类中的高效路径预测
本文提出了一种路径成本敏感的学习算法,利用结构信息并进一步利用未标记和弱标记数据的生成模型,在学习算法中加入路径约束以融入类别层次结构的结构信息,可以使用后验概率来结合未标记和弱标记数据,并将结构敏感成本放置到学习算法中来约束分类一致性,与 - AAAI弱监督层次文本分类
本文提出了一种弱监督的神经方法进行层次文本分类,通过生成伪文档进行模型预训练,并在真实无标签数据上进行自我训练,最终得到高效准确的分类模型。