大语言模型的文本摘要：MPT-7b-instruct、Falcon-7b-instruct 和 OpenAI Chat-GPT 模型的比较研究

Oct, 2023

大语言模型的文本摘要：MPT-7b-instruct、Falcon-7b-instruct 和 OpenAI Chat-GPT 模型的比较研究

Text Summarization Using Large Language Models: A Comparative Study of MPT-7b-instruct, Falcon-7b-instruct, and OpenAI Chat-GPT Models

PDF

Lochan Basyal, Mihir Sanghvi

TL;DR这篇研究论文使用了各种不同的大型语言模型，包括 MPT-7b-instruct，falcon-7b-instruct 和 OpenAI ChatGPT text-davinci-003 模型，通过不同的超参数对生成的摘要进行评估，并发现 text-davinci-003 模型的表现优于其他模型。该研究还分析了 CNN Daily Mail 和 XSum 两个不同的数据集，旨在提供对大型语言模型在不同数据集上应用时性能的全面理解。这项工作为对 NLP 领域的研究人员和从业者提供了有价值的见解，同时也为开发应对各种业务挑战的高级生成式人工智能应用奠定了基础。

Abstract

text summarization is a critical Natural Language Processing (NLP) task with applications ranging from information retrieval to content generation. Leveraging large language models (→

text summarization large language models llms experiment performance

发现论文，激发创造

利用大型语言模型作为参考学习自动摘要

本文提出了一种新的学习范式，考虑到 LLMS 是常用摘要数据集中的参考标准，用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明，用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型，其性能可以与参考的 LLM 相媲美，通过访问 LLMS 它只需要很小的预算。

May, 2023

探索基于 ChatGPT 的查询或基于方面的文本摘要的极限

本文介绍了关于文本摘要的各种方法，包括提取式和抽象式，并探讨了大型语言模型在此方面的应用潜力。作者以四个数据集为例，展示了 ChatGPT 生成的摘要与人类参考的差异，并发现 ChatGPT 在摘要性能上可以与传统的微调方法媲美。该研究为各种文本摘要任务开辟了新方向，提供了有价值的见解。

Feb, 2023

评估由 OpenAI 的 GPT 生成的大型语言模型的文本摘要

本研究通过使用传统的 ROUGE 和潜在语义分析（LSA）等指标，将 OpenAI 的 GPT 模型作为独立的评估者，评估了 Hugging Face 的六个基于 Transformer 的模型生成的文本摘要的效果。独特地，我们将 GPT 用作评估器而非摘要生成器，使其能够独立评估摘要的质量，而无需预定义的指标。我们的分析显示 GPT 评估与传统指标之间存在显著相关性，尤其是在评估相关性和连贯性方面。结果展示了 GPT 作为评估文本摘要的强大工具的潜力，提供了对已建立指标的补充洞察，并为自然语言处理任务中基于 Transformer 的模型的比较分析提供了依据。

May, 2024

开源语言模型在医学文本数据摘要中的比较分析

在医疗笔记和对话中，非结构化文本具有丰富的信息。最近大型语言模型（LLMs）的进展展示了对非结构化文本数据的问题回答和摘要任务的卓越性能，超过了传统的文本分析方法。然而，在文献中缺乏有系统地评估和报告不同 LLMs 性能的科学研究，特别是针对医疗病历等特定领域数据。我们提出了一种评估方法来分析开源 LLMs（如 Llama2 和 Mistral）在医疗摘要任务中的性能，使用 GPT-4 作为评估器。我们创新的 LLMs 定量评估方法可以实现质量控制，支持为特定任务选择有效的 LLMs，并推进数字健康领域的知识发现。

May, 2024

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

GPT 模型是否能遵循人类摘要准则？评估 ChatGPT 和 GPT-4 在对话摘要中的应用

该研究探索了 ChatGPT 和 GPT-4 等大型语言模型在遵循人类对话摘要指南方面的能力。研究使用 DialogSum 和 DECODA 进行了实验，测试了从现有文献和人类摘要指南中提取的不同提示以及一种两步提示方法。我们的研究结果表明，GPT 模型通常会产生冗长的摘要，并偏离人类摘要指南。然而，使用人类指南作为中间步骤显示出一定的潜力，在某些情况下优于直接的字数限制提示。结果显示，GPT 模型在摘要中表现出独特的文体倾向。虽然 BERTScores 并没有明显下降，说明 GPT 的输出在语义上与人类参考和专门的预训练模型具有相似性，但 ROUGE 分数揭示了 GPT 生成的摘要与人类撰写的摘要之间的语法和词汇差异。这些发现为 GPT 模型在遵循人类对话摘要指南方面的能力和局限性提供了启示。

Oct, 2023

阅读深层意义：利用作者进行短篇小说梗概评估大型语言模型

最近的大型语言模型在总结短篇小说这一具有挑战性的任务上进行评估，结果显示这些模型在超过 50% 的总结中存在不忠实的错误，并且对于难以解释的含义也有困难，然而在最好的情况下，这些模型可以提供有思考深度的故事主题分析，并且我们还证明了语言模型对总结质量的评判与作者的反馈不一致。

Mar, 2024

通过盲评审和文本分类算法比较 ChatGPT 生成的抽象概括和真实概括

本研究通过使用自动度量和盲审人员评估 ChatGPT 在编写摘要上的表现，同时构建自动文本分类器以检测 ChatGPT 生成的摘要，并发现虽然文本分类算法可以区分真实和生成的摘要，但人类无法区分真实摘要和 ChatGPT 生成的摘要。

Mar, 2023

大型语言模型作为科学综合评估器

研究探讨了大型语言模型（如 GPT-4 和 Mistral）如何评估科学摘要（或更适合称为科学综述）的质量，将它们的评估与人工标注者的评价进行比较。通过使用包含 100 个研究问题及其由 GPT-4 从五篇相关论文摘要生成的综述的数据集，并与人工质量评分进行核查，该研究评估了闭源的 GPT-4 和开源的 Mistral 模型评估这些摘要，并提供其判断的理由。初步结果显示，大型语言模型可以提供与质量评分相对应的逻辑解释，但更深入的统计分析显示大型语言模型与人工评分之间存在较弱的相关性，这表明了大型语言模型在科学综述评估中的潜力和当前的局限性。

Jul, 2024

文本摘要的系统调查：从统计方法到大型语言模型

通过深度神经网络、预训练语言模型和最新的大型语言模型的出现，文本摘要研究经历了几次重大转型，本文综述通过这些范式转变的视角全面回顾了文本摘要研究的进展和演变，分为两个主要部分：(1) 在大型语言模型时代之前的数据集、评估指标和摘要方法的详细概述，包括传统统计方法、深度学习方法和预训练语言模型微调技术，以及 (2) 大型语言模型时代中对基准测试、建模和评估摘要的最新进展的首次详细研究。通过综合现有文献并提供一个连贯的概述，本文还讨论了研究趋势、面临的挑战以及在摘要研究中提出的有希望的研究方向，旨在引导研究人员了解摘要研究的不断演变的领域。

Jun, 2024