BooookScore：基于 LLMs 时代的图书摘要系统性研究

Oct, 2023

BooookScore：基于 LLMs 时代的图书摘要系统性研究

BooookScore: A systematic exploration of book-length summarization in the era of LLMs

Yapei Chang, Kyle Lo, Tanya Goyal, Mohit Iyyer

TL;DR通过两种工作流程 (层级合并、递增更新) 实现基于 LLM 的书籍摘要器的连贯性研究，发现 LLM 会出现八种常见的连贯性错误，并提出了一个自动评估指标 BooookScore，与人工标注结果一致，可用于系统评估其他关键参数的影响，同时节省了人工评估成本。

Abstract

Summarizing book-length documents (>100K tokens) that exceed the context window size of large language models (llms) requires first breaking the input document into smaller chunks and then prompting an LLM to merge, update, and compress →

book-length summarization llms coherence errors booookscore chunk-level summaries

发现论文，激发创造

FABLES：评估长篇书籍摘要的忠实性与内容选择

通过对虚构书籍的长篇小说生成概述的大规模人类评估，本论文揭示了长篇大语境语言模型在生成摘要时的忠实度和内容选择方面的问题，并且提出了检测生成的摘要中不忠实内容的重要性，同时也探讨了在书籍概述中与关键故事元素相关的遗漏错误以及朝末尾发生事件的系统过度强调。

Apr, 2024

借助人类反馈递归地对图书进行摘要

本文介绍利用机器学习方法，在小部分任务中辅助人类反馈来逐步完成整个任务，并用所收集的大量数据 fine-tune GPT-3 模型，将其应用于整本小说的抽象式摘要，最后得到了可以在几个案例中与人类摘要匹配的，甚至匹配人类摘要质量的总结。

Sep, 2021

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

新闻摘要的大型语言模型基准测试

通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估，我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键，并通过从自由职业作家收集的高质量摘要进行人类评估，得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。

Jan, 2023

大型语言模型是否适合作为抽象概括的评估器？

本文旨在探讨使用 LLMS（例如 “gpt-3.5-turbo”）作为自动评估器来评估摘要的性能，并比较了不同的评估方法和提示格式对其评估能力的影响。作者建议哪些提示格式可以提高 LLM 的性能，并讨论了 LLM 的评估能力随摘要质量和评估维度的变化。

May, 2023

总结（几乎）已死

大型语言模型在总结任务中表现出令人满意的性能，超过了参考摘要的基准，人类评估者明显偏好大型语言模型生成的摘要而不是人工撰写的摘要和经过微调的模型生成的摘要，因为大型语言模型生成的摘要具有更好的事实连贯性和更少的外在幻觉实例。

Sep, 2023

利用大型语言模型作为参考学习自动摘要

本文提出了一种新的学习范式，考虑到 LLMS 是常用摘要数据集中的参考标准，用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明，用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型，其性能可以与参考的 LLM 相媲美，通过访问 LLMS 它只需要很小的预算。

May, 2023

用校准的置信度评分增强对由 LLM 生成的代码摘要的信任

通过使用大型语言模型 (LLMs) 自动 AI 方法生成的摘要进行性能测量和校准来检测其是否与人工生成的摘要足够相似。

Apr, 2024

通过 LLMs 简化长文档摘要评估

该研究提出了一种新方法，即从长文档中提取关键句子，然后通过提示大型语言模型来评估摘要，以解决计算成本高、长文档中的重要信息往往被忽视的问题，研究结果显示该方法不仅显著降低了评估成本，而且与人工评估的相关性更高，此外，我们还提供了关于最佳文档长度和句子提取方法的实用建议，为基于大型语言模型的文本生成评估的成本效益更高且更准确的方法的发展做出了贡献。

Sep, 2023

利用大型语言模型进行元素感知式摘要：专家对齐评估和思路链方法

研究发现 CNN / DailyMail 和 BBC XSum 数据集的参考摘要存在噪音，因为这些摘要主要存在于事实幻觉和信息冗余方面。为了解决这个问题，他们提出了 “Summary Chain-of-Thought（SumCoT）” 技术，通过逐步摘要的方式生成细粒度的摘要。利用新的测试集，研究人员观察到 LLM 具有惊人的零 - shot 摘要能力，该技术旨在使他们将更细粒度的细节集成到与人类写作方式相关的最终摘要中。实验结果表明，该方法在两个数据集上的 ROUGE-L 优于现有技术。

May, 2023