基于错误人工评估的GPT-4在句子简化中的深入评估

Mar, 2024

基于错误人工评估的GPT-4在句子简化中的深入评估

An In-depth Evaluation of GPT-4 in Sentence Simplification with Error-based Human Assessment

Xuanxin Wu, Yuki Arase

TL;DR通过设计错误基础的人类注释框架来评估GPT-4在句子简化方面的能力，进一步深入了解大型语言模型的性能，同时确保评估的可靠性。该研究发现GPT-4相对于现有最先进的模型来说，普遍生成较少错误的简化输出，但在词汇转述方面仍然存在限制。此外，我们对广泛使用的自动评估指标进行了元评估，发现这些指标在评估GPT-4的高质量简化整体能力上缺乏足够的敏感性。

Abstract

sentence simplification, which rewrites a sentence to be easier to read and understand, is a promising technique to help people with various reading difficulties. With the rise of advanced large language models (

发现论文，激发创造

文本简化系统的无参考质量评估

本文探讨了针对在无参考文本的情况下，对简化文本进行质量估计的多种方法，并基于QATS 2016的数据集对多个方法进行了比较，最终发现基于n-gram的机器翻译度量（如BLEU和METEOR）最能与语法正确性和意义保留的人工评估相匹配，而基于长度的度量方法则最适合衡量简明易懂程度。

Jan, 2019

ASSET: 多重改写转换的句子简化模型调整与评估数据集

这篇论文介绍了ASSET数据集，用于评估句子简化，并展示它相对于其他标准评估数据集的优越性，同时指出现有评估模型可能不够适合使用多重简化转换。

May, 2020

LENS: 可学习的文本简化评估度量

该论文介绍了使用SIMPEVAL语料库来训练可学习度量，并基于此提出了针对文本简化的可学习评估度量LENS，结果显示与现有度量相比LENS更符合人类评价标准，同时提供了人类评估框架及评估工具包。

Dec, 2022

基于大型语言模型的句子简化

本文使用零/少量数据训练的大型语言模型在众多基准测试集上进行了实验分析，结果表明LLMs优于最先进的句子简化方法，并被评为与人类标注者一致。

Feb, 2023

GPTEval：利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估

使用大型语言模型和一种具有连续思考特点的填充范式，提出了一种 NLG 质量评估框架，结合两种生成任务——文本摘要和对话生成，使用 GPT-4 模型作为骨干模型，与以往方法相比性能更好。

Mar, 2023

成功与失败之间的舞蹈：使用SALSA进行编辑层次简化评估

研究了基于大型语言模型的文本简化方法，提出了一种人工评估框架 SALSA，并使用该框架进行了细致的简化质量评估，发现 GPT-3.5 可以比人类更优秀的进行简化但仍存在错误；同时，提出了一种基于编辑注释的自动评估方法 LENS-SALSA，并报告了良好的初步结果。

May, 2023

重新审视非英语文本简化：一个统一的多语言基准

该研究介绍了MultiSim基准，这是一个包含27种语言的12种不同语言资源的集合，其中包含超过170万个复杂-简单句对，使用预训练的多语言语言模型进行的实验表明具有激动人心的性能提升，证实了跨语言的可行性。

May, 2023

LLM能增强低资源阅读理解数据集吗？机遇和挑战

本文探讨了使用GPT-4作为人工标注的替代品来提供低资源阅读理解任务的性能，通过精细调节后的性能和标注成本的对比，这是对LLMs作为合成数据增广器用于QA系统的第一次分析，强调了这一独特的机遇和挑战，并提供了低资源数据集的增广版本，为生成数据集的评估提供了进一步的基准。

Sep, 2023

评估指标在GPT-4时代：可靠评估大型序列到序列任务上的语言模型

通过自动和人工评估，我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估，发现 ChatGPT 在大多数指标上始终优于其他流行模型，而使用经典的自动评估指标时，得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多，表明许多流行基准的质量较低。最后，我们发现 GPT-4 能够在特定任务的变异性较小的情况下，对模型输出进行排名，与人类判断趋于一致，但在语法错误纠正任务中的排名一致性较低。

Oct, 2023

自动评估方法在面向指导型语言模型中的可靠性研究

我们对基于文本重叠和大型语言模型判断的自动化方法在广泛任务和跨语言环境中的可靠性进行了研究，发现自动评估方法与人类评估者之间的相关性在任务类型不同的情况下存在相当大的变异性。尽管自动评估方法在特定条件下可以近似人类判断，但其可靠性高度依赖于上下文。这些发现强化了我们在开发和评估面向指导的大型语言模型时如何应用和解释自动化方法的理解。

Feb, 2024