基于关联约束的关键词生成
本文研究了三种强大的编码 - 解码模型 (T5、 CatSeq-Transformer 和 ExHiRD) 的性能和行为,分析了预测置信度得分、模型校准和密钥短语生成的令牌位置对其的影响,提出了一个新的度量框架 SoftKeyScore。结果表明,相比于标准的 F1 指标,SoftKeyScore 更适合用于评估两组给定关键词。
Apr, 2023
本文证明了 Sequence-to-sequence 模型可以显著提高文档检索性能,并介绍了一种新的外在评估框架,以更好地理解生成关键词模型的局限性,包括文档补充中所遇到的困难和模型在不同领域中的一般化问题。
Jun, 2021
本篇论文探讨了如何利用半监督学习方法,在有限的有标签数据下,将无标签数据与有标签数据结合来提高关键短语生成的性能,实现多任务学习,通过无监督关键短语抽取方法或自学习算法得到的合成关键短语为无标签数据进行标注。实验结果表明,利用半监督学习的方法能够明显优于仅训练有标签数据的最先进模型。
Aug, 2018
提出了一种无监督的、跨领域的关键词生成模型,由 seq2seq 模型、phraseness 模块和 informativeness 模块组成,在多个基准数据集上均获得了明显优于现有无监督模型的最佳结果。
Jun, 2023
本研究从建模和评估的角度解决了许多现有神经关键词生成模型中缺乏多样性问题,并提出了两种评估指标和一种新数据集 StackEx,从而能够控制输出数量并在所有数据集上优于强基线。
Oct, 2018
研究自动理解社交媒体上的用户生成内容,利用基于序列到序列模型的神经关键短语生成框架提取突出信息,并允许生成缺失关键短语。实验表明该模型在三个数据集中表现优异,能学习有意义的主题,从而解释其在社交媒体关键短语生成中的优越性。
Jun, 2019
本文提出了一种新的端到端学习框架 UniKeyphrase,通过堆叠关系层和词袋约束来充分利用模型结构和训练过程中的潜在语义关系,能够更好地预测关键短语,实验结果表明,这种联合方法在关键短语预测上比主流方法表现更好。
Jun, 2021
本研究旨在提高从印尼 Twitter 数据中提取关键词的精确度,使用句法特征等额外信息修改 JRNN 模型的输入层提取多个关键词序列,并使用数据增强方法增加训练示例。在实验证明该方法优于基线方法,精度和 F1 分别达到 0.9597 和 0.7691。
Sep, 2020
本文提出了一个两阶段的神经模型来解决从文档中生成问题的问题,第一阶段使用神经关键短语提取器来预测关键短语并作为目标答案,第二阶段使用序列到序列的问题生成模型带有复制机制生成问题,该模型优于标签基线和规则化的方法,是提高机器阅读系统或教育工作者的良好选择
Jun, 2017