TempoSum：评估抽象化摘要的时间泛化能力

May, 2023

TempoSum：评估抽象化摘要的时间泛化能力

TempoSum: Evaluating the Temporal Generalization of Abstractive Summarization

Chi Seng Cheang, Hou Pong Chan, Derek F. Wong, Xuebo Liu, Zhaocong Li...

TL;DR本文研究了文本摘要模型的时态泛化能力和忠实度，并提出了新的基准测试集 TempoSum，对不同时间段的数据进行测试，发现现有的基准测试集可能依赖于事先的知识，不具有泛化能力，并且现有的忠实度提升方法对未来数据的忠实度提升是不可靠的。

Abstract

Recent pre-trained language models (PLMs) achieve promising results in existing abstractive summarization datasets. However, existing summarization benchmarks overlap in time with the standard pre-training corpor

pre-trained language models abstractive summarization temporal generalization faithfulness summarization models

发现论文，激发创造

GUMSum：英文抽象摘要的多语种数据和评估

本文提出了 GUMSum 数据集，旨在评估抽象概括的英语摘要。该数据集高度约束，注重替换潜力、事实和忠实度，结果显示 GPT3 达到了令人印象深刻的得分，但仍然表现不如人类，并且不同类型的错误揭示了生成好概括的挑战。

Jun, 2023

基于微调的抽象摘要模型的实体级事实可适应性

通过分析对知识冲突的鲁棒性，本文研究了基于微调的抽象概括模型，发现并引入了一种可控的反事实数据增广方法来增强事实适应性，并在两种预训练语言模型（PEGASUS 和 BART）以及两个微调数据集（XSum 和 CNN/DailyMail）上实验证明，该方法在实现原始数据集上的事实一致性的同时提高了事实适应性。

Feb, 2024

文本摘要模型的训练动态

本文分析生成模型的训练动态，特别是聚焦于总结的方面，并研究了不同阶段的训练过程中模型学到的东西，通过简单的训练修正可以实现不同目标，比如提高事实性和提高抽象程度。

Oct, 2021

基于预训练语言模型的医学文本摘要综述

本文系统总结了使用预训练语言模型（ Pre-trained language models）的生物医学文本摘要的最新进展、挑战问题和未来方向，帮助我们更好地理解该领域的最新进展和使用预训练语言模型在生物信息学中的应用。

Apr, 2023

新闻摘要的大型语言模型基准测试

通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估，我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键，并通过从自由职业作家收集的高质量摘要进行人类评估，得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。

Jan, 2023

文本摘要的系统调查：从统计方法到大型语言模型

通过深度神经网络、预训练语言模型和最新的大型语言模型的出现，文本摘要研究经历了几次重大转型，本文综述通过这些范式转变的视角全面回顾了文本摘要研究的进展和演变，分为两个主要部分：(1) 在大型语言模型时代之前的数据集、评估指标和摘要方法的详细概述，包括传统统计方法、深度学习方法和预训练语言模型微调技术，以及 (2) 大型语言模型时代中对基准测试、建模和评估摘要的最新进展的首次详细研究。通过综合现有文献并提供一个连贯的概述，本文还讨论了研究趋势、面临的挑战以及在摘要研究中提出的有希望的研究方向，旨在引导研究人员了解摘要研究的不断演变的领域。

Jun, 2024

评估 LLMs 在时间泛化上的表现

大语言模型的发展迫切需要与语言理解和信息处理的提升相适应的评估方法。我们检查了当前的大语言模型，并揭示了它们在时间推理和偏见方面存在的各种时间偏见。我们提出了一个评估框架 Freshbench，用于动态生成最新的现实世界预测性预测的评估基准。

May, 2024

大型语言模型是否适合作为抽象概括的评估器？

本文旨在探讨使用 LLMS（例如 “gpt-3.5-turbo”）作为自动评估器来评估摘要的性能，并比较了不同的评估方法和提示格式对其评估能力的影响。作者建议哪些提示格式可以提高 LLM 的性能，并讨论了 LLM 的评估能力随摘要质量和评估维度的变化。

May, 2023

AugSumm：利用大型语言模型生成的合成标签进行通用语音摘要

通过使用大型语言模型（LLM）作为人工标注者的代理，本研究提出了一种名为 AugSumm 的方法来生成用于训练和评估的增广摘要，通过在 ChatGPT 上生成的合成摘要验证其质量，并在训练和评估中利用这些合成摘要，实验证明在合成摘要上进行预训练并在 GT 摘要上进行微调可以改善 ROUGE-L 指标。

Jan, 2024

使用预训练模型的抽象文本摘要分析

本文评估了不同预训练模型在不同数据集上的文本摘要效果，通过 ROUGE 和 BLEU 指标比较了三种不同预训练模型在 CNN-dailymail、SAMSum 和 BillSum 三个数据集上的性能表现。

Feb, 2023