基于 Transformer 的关键词生成的跨领域鲁棒性
本研究测试了四个基准数据集,使用流行的基于 Transformer 的模型进行抽象文本摘要,以实现关键词提取的目的,并将结果与常见无监督和有监督方法进行比较。研究结果表明,这些摘要模型非常有效地生成关键词,但它们产生的大量单词都不在作者的关键词列表中,这使得摘要模型在 ROUGE-1 方面效果不佳。此外,对于几种排序策略进行调查的结果表明,策略的选择会影响关键词生成的性能。
Sep, 2022
本文讨论大型语言模型在特定领域摘要文本生成中的局限性,特别指出了基于 Transformer 的模型复杂度与模型崩溃的问题,并探讨了解决现有研究中存在的问题的相关技术。
Jul, 2023
通过考虑关键短语字符串作为标题和摘要的抽象摘要,探索了生成科学文章 keyphrases 的可能性。尽管使用了先进的深度学习模型和海量数据,但我们对四个测试数据集的系统评估表明,探索的文本摘要方法不能产生比更简单的无监督方法或现有的监督方法更好的 keyphrases。
Mar, 2019
提出了 Keyphrase-Focused BART 方法来处理关键短语生成任务,利用序列到序列模型在存在和不存在关键短语生成上的差异进行细微调整,并展示了洗牌关键短语和候选关键短语排名的有效方法,在五个关键短语生成基准数据集中,我们的 Keyphrase-Focused BART 在不存在关键短语上达到了最新的 F1@5 最高得分。
Sep, 2023
本文研究如何训练针对文本文档中关键短语的任务特定语言模型,通过使用不同的掩码策略在区分性和生成性环境下对预训练变压器语言模型进行实验,并提出新的预训练目标 - 关键短语边界填充替换(KBIR),用于关键短语提取,与现有最佳方法相比,能够提高 8.16 个 F1 分数;此外,还提出了适用于 BART 的新的预训练设置 - KeyBART,能够在 CatSeq 格式中重现与输入文本相关的关键短语,用于关键短语生成,并能比现有最佳方法提高 4.33 个 F1M 分数。最后,对预训练语言模型进行细微调整,用于命名实体识别,问答,关系抽取,编写摘要等,达到了与现有最佳方法可比的性能,表明学习关键短语的丰富表达对于许多其他基础的自然语言处理任务是有益的。
Dec, 2021
本文研究了文本摘要技术中的领域转移问题,提出了将领域的定义从类别扩展到数据源,并探讨了四种不同的学习策略以解决领域转移问题,在新测试中呈现出不同的性能特点。
Aug, 2019
通过自然语言处理技术,对长文本数据进行自动摘要,采用数据增强和微调等策略进行优化,可以大幅提高摘要的准确性,本文采用最先进的 NLP 模型 BART 进行研究,并提供了一种端到端的优化策略,使得在金融、医疗或其他特定领域的数据上,其 ROUGE-1 指标达到了绝对提升 5-6% 的水平。
Apr, 2022
研究了神经抽象摘要的领域适应问题,发现预训练模型利用提取式摘要可以提高摘要质量,同时结合域内和域外数据可以获得更好的摘要效果,但对于目标领域的风格要求域内数据。
Jul, 2017
本文探讨使用预训练的 Transformer 语言模型来进行文本摘要的实现,提出了基于源嵌入和领域自适应训练的方法,并在三个摘要数据集上进行了测试,并在其中两个数据集上取得了新的最佳表现。结果表明,该方法能够产生更专注的摘要,并且对于更抽象的数据集表现得更加明显。
Jun, 2019
本文提出了一种高效且通用的基于领域的前缀微调模型,利用领域词初始化前缀模块以减轻领域交错,采用离散提示来引导模型关注对话的关键内容并增强模型的泛化能力。我们在 TODSum 和 QMSum 数据集上进行了零 - shot 实验,并构建了领域自适应基准。充分的实验和定性分析证明了我们方法的有效性。
Apr, 2022