GPTScore：任意评估

Feb, 2023

GPTScore: Evaluate as You Desire

Jinlan Fu, See-Kiong Ng, Zhengbao Jiang, Pengfei Liu

TL;DR本文提出了一种新的评估框架 GPTScore，利用生成预训练模型的崭新能力对生成的文本进行评分，实验结果表明该方法能够高效地实现对文本的定制化、多方面评估，不需要注解样本。

Abstract

generative artificial intelligence (AI) has enabled the development of sophisticated models that are capable of producing high-caliber text, images, and other outputs through the utilization of large pre-trained models<

generative artificial intelligence gptscore pre-trained models text generation tasks text evaluation

发现论文，激发创造

当自动评估遇上自动内容生成：审视 GPT 时代的文本质量

基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器（GPT）的文本评估模型之间的差异，发现转换器预训练语言模型（PLM）相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量，但相对于人工创作的文档，GPT 生成的文本评分平均要高出 10-15％。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。

Sep, 2023

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023

基于预训练 GPT-2 模型的生成式人工智能文本生成方法

该研究探讨了自动文本生成的领域，从传统确定性方法到现代随机方法，研究了多种技术。通过对贪婪搜索、束搜索、顶 k 采样、顶 p 采样、对比搜索和局部典型搜索的分析，得出了每种方法的优点、缺点和潜在应用。使用多个标准度量评估了每种文本生成方法，并对方法的性能进行了比较研究。最后，还确定了自动文本生成领域的一些未来研究方向。

Apr, 2024

BARTScore：将生成文本作为文本生成进行评估

本研究利用预训练的序列到序列模型建立生成文本评估系统，并提出了一种与可靠的度量标准 BARTScore，可灵活应用于不同角度的文本评估，包括信息性，流畅性和事实性等领域，通过在 16 个数据集和 7 个不同角度的测试中超越其他评测度量标准。

Jun, 2021

ChatGPT 自动评分的微调

本研究通过在科学教育中使用示例评估任务，突显了精调 ChatGPT（GPT-3.5）自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比，GPT-3.5 在自动评分准确性上表现出显著提高，并发布了细调模型以供公众使用和社区参与。

Oct, 2023

GPTEval：利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估

使用大型语言模型和一种具有连续思考特点的填充范式，提出了一种 NLG 质量评估框架，结合两种生成任务 —— 文本摘要和对话生成，使用 GPT-4 模型作为骨干模型，与以往方法相比性能更好。

Mar, 2023

GPT-4 技术报告

本文介绍了 GPT-4，一种大规模、多模态模型，可接受图像输入和文本输入，并产生文本输出。通过预先训练，优化方法和改进后的对齐过程，GPT-4 表现出人类水平的性能。

Mar, 2023

评估指标在 GPT-4 时代：可靠评估大型序列到序列任务上的语言模型

通过自动和人工评估，我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估，发现 ChatGPT 在大多数指标上始终优于其他流行模型，而使用经典的自动评估指标时，得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多，表明许多流行基准的质量较低。最后，我们发现 GPT-4 能够在特定任务的变异性较小的情况下，对模型输出进行排名，与人类判断趋于一致，但在语法错误纠正任务中的排名一致性较低。

Oct, 2023

GPT 模型在机器翻译中有多好？一项全面评估

本研究对 GPT 模型在机器翻译方面的表现进行了全面评估，涵盖了许多方面，如与最新研究和商业系统的不同 GPT 模型的质量比较，提示策略的效果，域转换和文档级翻译的鲁棒性。实验覆盖了 18 个不同的翻译方向，包括高资源和低资源语言以及非以英语为中心的翻译，评估了三个 GPT 模型：ChatGPT，GPT3.5 (text-davinci-003) 和 text-davinci-002。实验结果表明，对于高资源语言，GPT 模型达到了极具竞争力的翻译质量，而对于低资源语言的能力却有限，同时也证明了混合方法（将 GPT 模型与其他翻译系统相结合）可以进一步提高翻译质量。我们进行了全面的分析和人工评估，以进一步了解 GPT 翻译的特点。我们希望我们的论文为研究人员和实践者提供有价值的见解，并有助于更好地理解 GPT 模型在翻译方面的潜力和局限性。

Feb, 2023

利用 GPT-4 增强医学文本评估

在医学文本生成的评估中，我们提出了一套以事实为核心的评估方面，并设计了相应的基于 GPT-4 的医学文本生成评估指标，与现有指标相比，该方法具有更高的人类判断一致性。

Nov, 2023