面向 facet 的提取式摘要评估
本研究分析和评估了预训练的大型语言模型在科学文献摘要中的应用,并介绍了 Facet-aware Metric 评估方法以及 Facet-based 科学摘要数据集的构建。研究表明,Facet-aware Metric 提供了一种更加合理的科学摘要评估方法,而在科学领域,经过精细调整的较小模型可以与大型语言模型竞争,但大型语言模型在学习科学领域中的上下文信息方面存在局限性,需要进一步改进。
Feb, 2024
通过语义文本匹配任务范式,本论文提出了一种新的神经抽取式摘要系统构建方法。经过与原有抽取式摘要方法数据集的实验对比,该方法取得了更好的抽取结果,并通过对 CNN / DailyMail 数据集的实验,创造了 44.41 的新高水平。我们相信,这种基于匹配的摘要框架的潜力还未完全被利用。
Apr, 2020
观点总结与其他类型的总结任务有所不同,因为其独特关注于方面和情感。本文介绍了 OpinSummEval,它是一个包含人工评价和 14 个观点总结模型输出的数据集。我们进一步探讨了 24 个自动评估指标与人工评分之间在四个维度上的相关性。结果表明,基于神经网络的指标通常优于非神经网络的指标。然而,即使是构建在强大的模型基础之上,如 BART 和 GPT-3/3.5,也不能在所有维度上一致地与人工评分相关,凸显了观点总结自动评估方法的进步需求。代码和数据可在此 URL 公开获取。
Oct, 2023
本研究论文针对新闻文本自动摘要的抽取和生成方法进行了广泛的比较评估,重点分析了 ROUGE 分数。研究使用 CNN-Daily Mail 数据集,包括新闻文章和人工生成的参考摘要。通过 ROUGE 分数评估生成摘要的效果和质量,再将表现最佳的模型整合到 Web 应用程序中,评估其在真实世界中的能力和用户体验。
Oct, 2023
本文介绍了 FacetSum 这一基于 Emerald 期刊文章的多方位摘要基准数据集,其不同于传统的文档 - 摘要对,提供了多个摘要,针对长文档的不同部分,包括目的、方法、发现和价值等方面,对数据集的分析和实证结果揭示了将结构引入摘要的重要性。我们相信 FacetSum 将推动摘要研究的进一步发展,促进 NLP 系统在长文本和摘要中利用结构信息的发展。
May, 2021
本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较,发现相对于参考摘要而言,由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析,最终提出了对于提高抽象化摘要生成的学习方法的思考。
Feb, 2020
iFacetSum 是一个集成了交互式摘要和多维搜索的网络应用程序,提供了一种新颖的多维导航方案,可为用户的选择生成抽象摘要。该方法基于跨文本指称关系管道自动产生细粒度的多维信息,经过用户研究证明其具有实用性。
Sep, 2021