- 用于科学论文自动摘要的俄语多模态数据集
该论文讨论了创建一个俄语科学论文的多模态数据集,并测试了现有的语言模型在自动文本摘要任务上的表现。该数据集的特点是其多模态数据,包括文本、表格和图形。论文介绍了使用 SBER 的 Gigachat 和 Yandex 的 YandexGPT - 利用深度学习架构增强上下文理解的神经序列到序列模型与注意力的应用于抽象文本摘要
该研究提出了一个新颖的抽象式单文档文本摘要框架,融合了结构、语义和基于神经网络的方法,通过结合机器学习和基于知识的技术实现了一种统一的方法。实验证明了该框架在处理罕见和未登录词方面的显著改进,优于现有的深度学习技术。
- 通过提示调整的大型语言模型进行医患对话的自动摘要
通过 prompt 调整,使用生成式大型语言模型(LLMs)概括医生与患者对话,证明了生成式临床 LLMs 调整对于医学自动文摘系统的效率。
- COLING德国也出现幻觉!与阿森特数据集中的新闻摘要不一致检测
本研究介绍了一个用于德语新闻摘要中幻觉检测的手动标注数据集,并探索了新型开源大语言模型在该任务的微调和上下文学习设置中的能力。
- 面向过程的自动文本摘要综述及基于 LLM 方法的探索
利用自然语言处理算法,自动文本摘要旨在创建简明准确的摘要,从而显著减少处理大量文本所需的人力。本文综述了自动文本摘要的最新方法和基于大型语言模型的研究,以及以实际应用为导向的流程方案。此外,本文还填补了文献中两年的空白期,是首次特别研究基于 - 基于注意力机制 GRU 编码器 - 解码器的抽象文本摘要
本篇论文中,采用了 GRU-based encoder 和 Bahdanau attention mechanism 对英语文本进行了自动摘要,使用 News-summary 数据集进行训练,其输出表现优异,可以用作报纸头条。
- 自动文本摘要技术的综合综述:方法、数据、评估和编码
本文综述了自动文本摘要的研究现状及其评估方法,使用引用文献的方法考察各种摘要生成机制,同时对可用于摘要任务的数据集进行了广泛的回顾,并在 CNN 语料库数据集上进行了抽取和生成方法的实证研究。
- 利用广义可加模型及交互作用进行抽取式文本摘要
本文研究了可解释的机器学习模型在自动文本摘要中的应用,探讨了基于语言学特征和二分类的解释性 Boosting 机器和 GAMI-Net 模型在摘要提取问题中的应用。
- 文档级主体概括
本文研究使用 Transformer 技术来提高自动文本摘要的效率,提出基于检索的方法,可以降低处理整个文档的成本。实验结果表明,相较于基线,该方法的存储占用更少,且保证了文本摘要的可靠性。
- 超越文本生成:通过持续的自动文本摘要支持写手
本文提出了一个文本编辑器,使用自动文本摘要为用户提供不断更新的逐段摘要,以边缘注释的方式帮助用户规划、结构化和反思写作过程。通过两个用户研究,作者发现这个系统为用户提供了一个外部的视角来帮助他们修改段落的内容和范围,并且帮助用户快速了解文本 - CLTS+: 一个新的中文长文本摘要数据集,具有生成式摘要
为提高模型的创造能力,该研究构建了含超过 180K 篇文章 - 摘要对的具有高度抽象性的中文长文本摘要数据集(CLTS+),并提出了一种基于共现词的评估该数据集的内在度量方法。
- X-SCITLDR:学术文献的跨语言极端摘要
本研究填补了前人研究的空白,提出了一个多语种的学术领域摘要数据集,基于此我们能够训练和评估处理英语论文并生成德语、意大利语、汉语和日语摘要的模型,同时分析了在零样本和少样本情况下训练的性能。
- 图形元素摘要
自动文本摘要在近年来取得了实质性的进展。Ter Hoeve 等认为自动摘要生成的类型与用户需求不符,推荐增加更多图形元素。基于这个任务,我们提出了摘要与图形元素结合的新任务,并验证这些摘要对大众有助益。我们收集了一个高质量的人工标注数据集, - 使用合成事实评估自动文本摘要
提出了一种新的自动文本摘要评估系统,该系统可以基于事实一致性、综合性和压缩率来测量任何文本摘要模型的质量,该评估系统是第一个基于真实性、信息覆盖和压缩率来衡量摘要模型总体质量的系统。
- WIDAR -- 加权输入文档增强 ROUGE
提出了一种名为 WIDAR 的度量标准,该度量标准使用参考摘要和输入文档评估生成摘要的质量,并且预计的度量标准与其他最新技术的度量标准的结果相当,同时需要相对较短的计算时间。
- ACL如何评估摘要生成器:手动语言质量评估的研究设计和统计分析
通过对最近总结系统论文的调查,我们发现,在如何进行这样的评估研究方面存在很少的一致性。我们进行了两个评估实验来比较 Likert 类型和排名注释,并展示了评估方法的最佳选择可能因一个方面与另一个方面不同。使用我们的评估实验,我们展示了注释者 - EMNLPSummaformers @ LaySumm 20, LongSumm 20
本文探讨了利用 Transformer-based 系统概括多领域科学研究论文的问题,并设计了两种不同类型的概述手段,即 LaySumm 和 LongSumm,使用 ROUGE 指标有效评估了本文系统的优越性。
- ACL自动文摘研究中如何融入用户视角生成一份好的文摘
本文通过问卷调查的方式,针对大学生这个用户群体,探究了自动生成文本摘要当前的研究方向与用户需求之间的差距,并提出了相关建议,以期能够改善未来自动文本摘要研究中的这一不匹配。
- 自动摘要俄罗斯新闻的数据集
本文介绍了 Gazeta 数据集,它是用于俄语新闻报道的第一个自动文本摘要数据集,并对其进行了扩展性和抽象性模型的基准测试和评估。结果表明,该数据集适用于俄语文本摘要任务,并且预训练的 mBART 模型可用于俄语文本摘要。
- IndoSum: 一种新的印尼文本摘要基准数据集
本文介绍了 IndoSum,一个新的印度尼西亚文本摘要基准数据集,采用新闻文章和手动构建的摘要,该数据集是先前相同领域的数据集的近 200 倍,使用各种抽取式摘要方法进行了评估,获得了令人鼓舞的结果,为未来研究提供了基准。