- 元词生成:按需生成关键词
传统的关键词预测方法无法满足用户和相关应用的多样需求,本文引入按需关键词生成,提出 MetaKP 基准和监督、非监督方法,通过大型语言模型的自一致性提示方法,在 NLP 基础设施中改进关键词生成性能,并在社交媒体上的疫情事件检测中展示了其潜 - EUROPA: 法律多语种关键词生成数据集
在法律领域中,我们提供了 EUROPA 数据集来支持多语言关键短语生成,利用欧洲联盟 (EU) 法院的法律判决作为数据源,涵盖了所有 24 种 EU 官方语言。我们在此数据集上运行了多语言模型并分析了结果,结果显示在特定领域的多语言语料库上 - COLING利用仅编码器预训练语言模型进行有效关键词生成
该研究探讨了仅具有编码器的预训练语言模型在关键词生成中的应用,研究了优化架构决策以及对资源设置进行性能比较的效果。研究发现,使用仅具有编码器的预训练语言模型进行关键词生成能够广泛预测关键词,而使用前缀语言模型对编码器进行微调则是一种强大且高 - EMNLPSimCKP:关键短语表示的简洁对比学习
我们提出了一个简单的对比学习框架 SimCKP,它由两个阶段组成:1)一个提取器 - 生成器,通过对比学习的方式学习上下文感知的短语级表示,同时生成不出现在文档中的关键短语;2)一个重新排序器,通过将生成的短语的表示与相应的文档对齐来调整每 - EMNLP基于预训练序列到序列模型的关键词生成中的模型选择和解码重新思考
通过对模型选择和解码策略的系统分析,本文提出 DeSel 算法,通过对 5 个数据集进行评估,平均提高 4.7% 的语义 F1 得分,为基于预训练语言模型的关键词生成(KPG)领域的深入研究奠定了基础。
- 通过拆分和洗牌对 BART 进行 Feintuning 以增强关键词生成
提出了 Keyphrase-Focused BART 方法来处理关键短语生成任务,利用序列到序列模型在存在和不存在关键短语生成上的差异进行细微调整,并展示了洗牌关键短语和候选关键短语排名的有效方法,在五个关键短语生成基准数据集中,我们的 K - ACL无监督开放领域关键词生成
提出了一种无监督的、跨领域的关键词生成模型,由 seq2seq 模型、phraseness 模块和 informativeness 模块组成,在多个基准数据集上均获得了明显优于现有无监督模型的最佳结果。
- 低资源关键词生成的数据增强
本文提出了针对资源受限领域关键短语生成的数据增强策略,并设计了使用文章全文来改进关键短语生成技术的方法,在三个数据集上得到了显著的性能提升。
- ChatGPT 与现有模型的关键词生成任务基准研究
本研究对比 ChatGPT 与现有技术模型的关键词生成能力,探究其在应对领域适应性和长文本关键词生成方面的潜力。实验结果表明 ChatGPT 在不同数据集和环境中均优于现有技术模型,能生成高质量、适应多样领域和文本长度的关键词。
- 神经关键词生成:分析与评估
本文研究了三种强大的编码 - 解码模型 (T5、 CatSeq-Transformer 和 ExHiRD) 的性能和行为,分析了预测置信度得分、模型校准和密钥短语生成的令牌位置对其的影响,提出了一个新的度量框架 SoftKeyScore。结 - ChatGPT 是良好的关键词生成器吗?初步研究
本研究的目的是为了评估 ChatGPT 在关键词生成方面的性能,在 6 个基准数据集上测试了其在不同方面的表现,发现其在关键词生成方面表现突出,但仍存在一些生成不全的关键词的挑战和限制。
- 预训练语言模型用于关键词生成的彻底实证研究
本文深入研究了基于预训练语言模型(PLMs)的关键短语抽取和生成的设计选择及其表现,发现在领域内使用类 BERT 的 PLMs 可以用于构建强大且数据有效的关键短语生成模型。而在固定参数预算的情况下,将模型深度优先于模型宽度,将更多的层分配 - 生物医学关键词生成的大规模数据集
本文介绍了 kp-biomed 数据集,这是第一个从 PubMed 摘要中收集了超过 5M 篇文献的大规模生物医学关键词生成数据集,并训练发布了几个生成模型,并进行了一系列实验,表明使用大规模数据集显著提高了生成模型的性能。
- EMNLPWR-ONE2SET:朝着良好校准的关键词生成
本文提出一种名为 WR-ONE2SET 的新模型,通过引入自适应实例级代价加权策略和目标重新分配机制,解决原模型 ONE2SET 中过估计空词元的问题,并在常用数据库上进行了实验验证其有效性和普适性。
- 领域自适应关键词生成的从一般到特定的转移标注
本文提出了一种通过使用一种数据有效的三阶段流程来训练关键短语生成(KPG)模型的方法,从而解决大型分布位移对不同领域 KPG 模型之间的转移性造成的严重障碍问题,并获得了在新领域中产生良好质量关键短语的结果。
- ACL检索增强的多语言关键词生成:借助检索器生成器迭代训练
该论文介绍了一种新的情景,名为多语言关键短语生成,并提出了一种基于检索增强的方法来缓解非英语语言中数据短缺的问题,使用检索模型找到相关的英文段落并生成当前语言的关键短语。实验结果表明,所提出的方法优于所有基线模型。
- LDKP: 从长篇科技文档中鉴别关键词短语的数据集
该研究发布了两份研究文献语料库,包括约 130 万篇和 10 万篇科学论文的完整抽取文本和附加元数据,有助于实现从科学文章中提取关键短语的任务。
- EMNLP面向资源受限的关键词生成的表示学习
本文提出一种数据导向的方法,通过检索式语料统计信息首先确定显著信息,然后使用基于预训练语言模型的任务特定中间表示学习生成关键短语。通过在多个关键短语生成基准测试中对该方法进行实验,证明了该方法对于促进低资源关键短语生成和零 - shot 领 - 应用通用序列到序列模型实现简单有效的关键词生成
本研究旨在展示使用 seq2seq 语言模型 BART,在一个简单的训练过程中能够轻松地从文本中生成关键词短语,并在五个基准测试中获得与现有最先进 KPG 系统一样好的实证结果,同时也拥有简单易部署的框架。
- EMNLPKPDrop:提升缺失关键词生成
本文提出了一种名为 KPDrop 的模型无关方法来提高缺失关键短语的生成,测试结果表明它可以在监督和资源受限的半监督设置中持续改善强基线的缺失性能。