本文提出了一种序列标注方法,将关键短语提取问题变为一个更自然的建模方式,并表明标注模型相比现有最先进的提取方法具有显著的性能优势。
Aug, 2016
该研究介绍了他们提交的 ICASSP 2023 MUG 挑战赛第 4 轨道 —— 关键短语提取,并描述了他们开发的技术以改进关键短语提取的性能,包括采用命名实体识别任务的单类建模,用多类焦点损失函数替换丢失函数等。
Mar, 2023
本文基于自蒸馏的思想,提出了一个简单高效的联合学习方法,以有效利用数以百万计的未注释科学文章,从而改进关键短语提取的性能,并在两个公共基准数据集 (Inspec 和 SemEval-2017) 上实现了新的最先进结果。
Oct, 2020
本文介绍了 TA-DA,一种面向科学文档的关键短语提取方法,其采用多任务学习、对抗训练和领域自适应相结合的框架,在确切匹配 F1 分数上的表现比基准模型提高了 5%。
Dec, 2022
本篇论文探讨了如何利用半监督学习方法,在有限的有标签数据下,将无标签数据与有标签数据结合来提高关键短语生成的性能,实现多任务学习,通过无监督关键短语抽取方法或自学习算法得到的合成关键短语为无标签数据进行标注。实验结果表明,利用半监督学习的方法能够明显优于仅训练有标签数据的最先进模型。
Aug, 2018
该研究发布了两份研究文献语料库,包括约 130 万篇和 10 万篇科学论文的完整抽取文本和附加元数据,有助于实现从科学文章中提取关键短语的任务。
Mar, 2022
提出一种名为 Knowledge-enhanced Doc-Label Attention Network (KeNet) 的新方法,通过综合的文档、知识和标签表示来预测每个文本的所有标签,并在多个多标签数据集上进行了综合验证,实验证明我们的方法优于现有的多标签文本分类方法。
Mar, 2024
本文提出了一种新的端到端学习框架 UniKeyphrase,通过堆叠关系层和词袋约束来充分利用模型结构和训练过程中的潜在语义关系,能够更好地预测关键短语,实验结果表明,这种联合方法在关键短语预测上比主流方法表现更好。
Jun, 2021
本文研究如何使用自动化方法提取科学文献中的关键词和短语,包括集成评分、语义网络和聚类等技术,并在 “可解释的人工智能” 领域的文献数据集上进行了评估。结果表明,集成评分可以提高关键词提取性能,基于 ConceptNet 语义网络的词嵌入具有类似于上下文化词嵌入的性能,但前者计算效率更高。最后,以术语为级别的语义关键词聚类可以将相似的术语组合在一起,适合用于构建分类方案。
Jan, 2021
提出了基于知识增强的元学习(KEML)框架,其中引入的 LKB-BERT 模型利用远程标注注入丰富的词汇知识,定义了概率分布的辅助任务以增强模型识别不同类型词汇关系的能力,并通过元学习和监督学习相结合来训练神经词汇关系分类器,实验证明 KEML 胜过现有的最先进方法。
Feb, 2020