评估由 OpenAI 的 GPT 生成的大型语言模型的文本摘要

May, 2024

评估由 OpenAI 的 GPT 生成的大型语言模型的文本摘要

Evaluating Text Summaries Generated by Large Language Models Using OpenAI's GPT

Hassan Shakil, Atqiya Munawara Mahi, Phuoc Nguyen, Zeydy Ortiz, Mamoun T. Mardini

TL;DR本研究通过使用传统的 ROUGE 和潜在语义分析（LSA）等指标，将 OpenAI 的 GPT 模型作为独立的评估者，评估了 Hugging Face 的六个基于 Transformer 的模型生成的文本摘要的效果。独特地，我们将 GPT 用作评估器而非摘要生成器，使其能够独立评估摘要的质量，而无需预定义的指标。我们的分析显示 GPT 评估与传统指标之间存在显著相关性，尤其是在评估相关性和连贯性方面。结果展示了 GPT 作为评估文本摘要的强大工具的潜力，提供了对已建立指标的补充洞察，并为自然语言处理任务中基于 Transformer 的模型的比较分析提供了依据。

Abstract

This research examines the effectiveness of openai's gpt models as independent evaluators of text summaries generated by six transformer-based models from Hugging Face: DistilBART, BERT, ProphetNet, T5, BART, and

openai's gpt models text summaries transformer-based models evaluating text summaries comparative analysis of transformer-based models

发现论文，激发创造

大语言模型的文本摘要：MPT-7b-instruct、Falcon-7b-instruct 和 OpenAI Chat-GPT 模型的比较研究

这篇研究论文使用了各种不同的大型语言模型，包括 MPT-7b-instruct，falcon-7b-instruct 和 OpenAI ChatGPT text-davinci-003 模型，通过不同的超参数对生成的摘要进行评估，并发现 text-davinci-003 模型的表现优于其他模型。该研究还分析了 CNN Daily Mail 和 XSum 两个不同的数据集，旨在提供对大型语言模型在不同数据集上应用时性能的全面理解。这项工作为对 NLP 领域的研究人员和从业者提供了有价值的见解，同时也为开发应对各种业务挑战的高级生成式人工智能应用奠定了基础。

Oct, 2023

探索基于 ChatGPT 的查询或基于方面的文本摘要的极限

本文介绍了关于文本摘要的各种方法，包括提取式和抽象式，并探讨了大型语言模型在此方面的应用潜力。作者以四个数据集为例，展示了 ChatGPT 生成的摘要与人类参考的差异，并发现 ChatGPT 在摘要性能上可以与传统的微调方法媲美。该研究为各种文本摘要任务开辟了新方向，提供了有价值的见解。

Feb, 2023

使用 GPT-3 进行零 - shot 意见摘要

本文介绍了如何使用 GPT-3 对大量的用户评论进行零样本情感总结，探讨了一些通用方法并对不同方法的信念忠实度、准确性和通用性等多个角度进行评估。

Nov, 2022

评估指标在 GPT-4 时代：可靠评估大型序列到序列任务上的语言模型

通过自动和人工评估，我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估，发现 ChatGPT 在大多数指标上始终优于其他流行模型，而使用经典的自动评估指标时，得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多，表明许多流行基准的质量较低。最后，我们发现 GPT-4 能够在特定任务的变异性较小的情况下，对模型输出进行排名，与人类判断趋于一致，但在语法错误纠正任务中的排名一致性较低。

Oct, 2023

GPTEval：利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估

使用大型语言模型和一种具有连续思考特点的填充范式，提出了一种 NLG 质量评估框架，结合两种生成任务 —— 文本摘要和对话生成，使用 GPT-4 模型作为骨干模型，与以往方法相比性能更好。

Mar, 2023

使用 ChatGPT 进行类人摘要评估

通过四种人类评估方法对五个数据集上的文本摘要进行评估，研究探讨了 ChatGPT 在人类化摘要评估方面的表现，ChatGPT 优于某些数据集上常用的自动评估指标。此外，研究还分析了不同提示对结果的影响，并与人工评估结果进行了比较，从而探讨了生成的解释和无效响应。

Apr, 2023

GPT 模型在机器翻译中有多好？一项全面评估

本研究对 GPT 模型在机器翻译方面的表现进行了全面评估，涵盖了许多方面，如与最新研究和商业系统的不同 GPT 模型的质量比较，提示策略的效果，域转换和文档级翻译的鲁棒性。实验覆盖了 18 个不同的翻译方向，包括高资源和低资源语言以及非以英语为中心的翻译，评估了三个 GPT 模型：ChatGPT，GPT3.5 (text-davinci-003) 和 text-davinci-002。实验结果表明，对于高资源语言，GPT 模型达到了极具竞争力的翻译质量，而对于低资源语言的能力却有限，同时也证明了混合方法（将 GPT 模型与其他翻译系统相结合）可以进一步提高翻译质量。我们进行了全面的分析和人工评估，以进一步了解 GPT 翻译的特点。我们希望我们的论文为研究人员和实践者提供有价值的见解，并有助于更好地理解 GPT 模型在翻译方面的潜力和局限性。

Feb, 2023

当自动评估遇上自动内容生成：审视 GPT 时代的文本质量

基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器（GPT）的文本评估模型之间的差异，发现转换器预训练语言模型（PLM）相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量，但相对于人工创作的文档，GPT 生成的文本评分平均要高出 10-15％。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。

Sep, 2023

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023

使用 GPT 对大型文档集进行抽象摘要

本研究提出了一种抽象化汇总方法，可用于文档集合而非个别文档。我们的方法应用语义聚类、主题聚类内的文档大小缩减、聚类文件的语义分块、基于 GPT 的汇总和连接以及每个主题的综合情感和文本可视化，支持探索性数据分析。通过使用 ROGUE 汇总分数将我们的结果与现有的先进系统 BART、BRIO、PEGASUS 和 MoCa 进行了统计比较，我们发现在 CNN/Daily Mail 测试数据集上，性能与 BART 和 PEGASUS 相当，在 Gigaword 测试数据集上，性能与 BART 相当。这一发现是令人鼓舞的，因为我们认为文档集合的汇总比个别文档的汇总更具挑战性。最后，我们讨论了规模问题。

Oct, 2023