基于查询的长文档关键词提取
本研究测试了四个基准数据集,使用流行的基于 Transformer 的模型进行抽象文本摘要,以实现关键词提取的目的,并将结果与常见无监督和有监督方法进行比较。研究结果表明,这些摘要模型非常有效地生成关键词,但它们产生的大量单词都不在作者的关键词列表中,这使得摘要模型在 ROUGE-1 方面效果不佳。此外,对于几种排序策略进行调查的结果表明,策略的选择会影响关键词生成的性能。
Sep, 2022
本文提出了一种使用 BiLSTM-CRF 模型和深度语境化嵌入来解决学术论文关键词提取问题,结果表明使用语境化嵌入、BiLSTM-CRF 结构和针对特定类型文章的语境化嵌入可以达到更好的性能,并且我们还分析了各种模型的优劣。
Oct, 2019
本文介绍了一项关于预训练模型适应长序列输入的经验研究,并提出一种构建长上下文模型的有效方法,包括采用池化增强分块注意力替换 transformers 中的全局注意力机制、采用不同长度的遮盖跨度预测任务、使用随机串联的短文档等。最终,研究人员成功构建出具有竞争性的长文本问答模型,并在五个长文本摘要数据集上取得了新的性能最高记录。
Sep, 2022
本篇论文综述了最新的基于 Transformer 模型的长文本建模技术,其中介绍了长文本模型的定义、如何满足输入长度限制和改进 Transformer 的架构以有效扩展最大上下文长度,以及如何适应长文本的特殊特性。并且描述了长文本建模的四个典型应用,并探讨了未来的研究方向。
Feb, 2023
本文提出了一种新的长文档重新排序方法,通过利用自注意力机制和模块化 Transformer 框架建立查询到文档的交互模型,避免了编码过程中低维度表示带来的信息瓶颈,实现了从全部文档中提取重要信息的目的,并在 Robust04 和 ClueWeb09 等数据集上实现了有效的重新排序。
May, 2022
本文提出了一种新颖的神经网络抽取式文档摘要模型,结合整个文档的全局上下文和当前主题内的局部上下文;我们在 Pubmed 和 arXiv 两个科学论文数据集上评估了该模型,并在 ROUGE-1,ROUGE-2 和 METEOR 分数上优于以前的工作,包括抽象模型和提取模型;更为惊讶的是,消融分析表明,我们的模型的好处似乎仅来自于对局部上下文的建模,即使对于最长的文档。
Sep, 2019
为了降低长上下文 Transformer 模型的成本并解决效率挑战,本研究提出了一种并行编程框架,用于定量分析在 GPU 高带宽内存限制下为多个长上下文请求提供服务时所面临的效率挑战,并识别出减少 1M 上下文推断成本的可能方向。
May, 2024
该论文提出了一种新颖的 Span Keyphrase Extraction 模型,能够直接从所有内容令牌中提取以跨度为基础的关键短语的特征表示,并进一步学习捕捉单个文档中关键短语之间的交互,以获得更好的排序结果。
Feb, 2020
长篇文档分类方面的研究中,我们提出了一种适应长文档的多核变换器(LAMKIT),通过使用多样化的基于变换器的核心来编码长篇文档,以解决上下文边界和文档长度差异性带来的问题,并通过这些核心向量化文本长度以提高模型的稳健性。在健康和法律领域的五个标准测试中,LAMKIT 相对于现有技术提升了高达 10.9% 的绝对改进。我们进行了大量的消融分析,以检验模型在不同文档长度上的稳健性和有效性。
May, 2024
通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合,结合文档长度线性扩展的小的注意力层,我们得到了与当前最先进模型竞争力的结果,特别是在冻结底层 transformers 的情况下,有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。
Jul, 2023