GPTEval:利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估
通过自动和人工评估,我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估,发现 ChatGPT 在大多数指标上始终优于其他流行模型,而使用经典的自动评估指标时,得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多,表明许多流行基准的质量较低。最后,我们发现 GPT-4 能够在特定任务的变异性较小的情况下,对模型输出进行排名,与人类判断趋于一致,但在语法错误纠正任务中的排名一致性较低。
Oct, 2023
本研究提出了一个基于 GPT-3.5 的评估框架,用于评估代码生成的功能正确性和人类偏好,能够在不需要测试 oracle 或参考文献的情况下,达到比 CodeBERTScore 更高的准确性和一致性。
Apr, 2023
研究通过在三个常用的 NLG 元评估数据集上实验,评估 ChatGPT 作为 NLG 指标的可靠性,结果表明其与黄金人类判断的相关性达到了同类指标的最高水平或具有竞争性。
Mar, 2023
使用大型语言模型(LLMs)评估文本质量近来变得流行。本文分析了 LLM 评估(Chiang 和 Lee,2023)和 G-Eval(Liu et al.,2023),讨论了评估过程中的细节如何改变 LLMs 给出的评分与人类评分的相关性。我们发现 G-Eval 中使用的自动思维链(CoT)并不总是使 G-Eval 与人类评分更加一致。我们还表明,强制 LLM 仅输出数字评分,如 G-Eval 中所示,是不理想的。最后,我们揭示出要求 LLM 解释其自身评分会持续改善 ChatGPT 与人类评分之间的相关性,并在两个元评估数据集上推动了最新技术的相关性。
Oct, 2023
自然语言生成(NLG)的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的 NLG 评估方法,探讨了它们的优势和劣势,讨论了人机合作的 NLG 评估,并提出了该领域的几个开放问题和未来的研究方向。
Feb, 2024
在医学文本生成的评估中,我们提出了一套以事实为核心的评估方面,并设计了相应的基于 GPT-4 的医学文本生成评估指标,与现有指标相比,该方法具有更高的人类判断一致性。
Nov, 2023
本研究针对大规模语言模型(LLMs),特别是 GPT-4,在多语言对和领域中,对不同翻译专业水平的人类翻译员进行全面评估,发现 GPT-4 在总体错误数量上表现与初级翻译员相当,但在中级和高级翻译员之下。我们还观察到在不同语言和领域中性能不平衡,GPT-4 的翻译能力从资源丰富的方向逐渐减弱。此外,我们定性地研究了 GPT-4 和人类翻译员的翻译结果,发现 GPT-4 的翻译存在逐字翻译的问题,而人类翻译员有时过于思考背景信息。据我们所知,本研究是首次对 LLMs 与人类翻译员进行评估并分析其输出之间的系统差异,为我们了解基于 LLM 的翻译目前的状态和潜在限制提供了有价值的见解。
Jul, 2024
研究论文从自然语言生成任务的角度全面评估了 ChatGPT、ChatGLM、基于 T5 的模型、基于 LLaMA 的模型和基于 Pythia 的模型等众所周知且表现良好的大型语言模型的性能,并提出了一种常见的评估设置,其中包括输入模板和后处理策略,通过与详细分析相结合的自动结果来报告研究结果。
May, 2024
通过对农业领域(特别是害虫管理)中人工智能大型语言模型(LLMs)生成的害虫管理建议内容进行评估,证明了人工智能大型语言模型在农业中的可行性,并且通过创新方法使用 GPT-4 作为评估器,在相关领域专家系统的基础上,综合评分,显示出 GPT-3.4 和 GPT-4 在大多数评估类别中优于 FLAN 模型,验证了人工智能大型语言模型在提供农业害虫管理建议方面的有效性和准确性(准确率为 72%)。
Mar, 2024
本研究通过使用传统的 ROUGE 和潜在语义分析(LSA)等指标,将 OpenAI 的 GPT 模型作为独立的评估者,评估了 Hugging Face 的六个基于 Transformer 的模型生成的文本摘要的效果。独特地,我们将 GPT 用作评估器而非摘要生成器,使其能够独立评估摘要的质量,而无需预定义的指标。我们的分析显示 GPT 评估与传统指标之间存在显著相关性,尤其是在评估相关性和连贯性方面。结果展示了 GPT 作为评估文本摘要的强大工具的潜力,提供了对已建立指标的补充洞察,并为自然语言处理任务中基于 Transformer 的模型的比较分析提供了依据。
May, 2024