GPTEval:利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估
研究通过在三个常用的 NLG 元评估数据集上实验,评估 ChatGPT 作为 NLG 指标的可靠性,结果表明其与黄金人类判断的相关性达到了同类指标的最高水平或具有竞争性。
Mar, 2023
本文介绍了使用大型语言模型(LLM)代替人类评估来评估人工智能生成的文本的潜力,探索了LLM对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果,并发现LLM评估结果与人类专家的评估结果保持一致。
May, 2023
本文提出了 Para-Ref,一种通过利用大型语言模型进行重新创作来增强现有自然语言生成评估基准的新方法,并在机器翻译、文本摘要和图像标题等任务中的实验结果表明,该方法能够通过多个高质量的参考文本使人工评估结果与16种自动评估指标之间的相关度提高了7.82%。
May, 2023
通过对计算机科学-NLP领域的20个选定主题进行研究和评估,本文证明了GPT-4相对于GPT-3.5在产生简明调查文章方面的成功,并揭示了LLM在特定领域应用中存在的问题和短板。
Aug, 2023
通过自动和人工评估,我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估,发现 ChatGPT 在大多数指标上始终优于其他流行模型,而使用经典的自动评估指标时,得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多,表明许多流行基准的质量较低。最后,我们发现 GPT-4 能够在特定任务的变异性较小的情况下,对模型输出进行排名,与人类判断趋于一致,但在语法错误纠正任务中的排名一致性较低。
Oct, 2023
为了解决开放式自然语言生成任务中评估标准不一致的挑战,我们提出了一种协同评估流程 CoEval,涉及特定任务标准的清单设计和文本的详细评估,其中大型语言模型生成初步的构思,而人类进行审查,结果显示,通过利用大型语言模型,CoEval能够高效地评估长文本,节省时间并减少人类评估的异常值,人类审查仍然起着重要作用,以最终确保可靠性。
Oct, 2023
自然语言生成(NLG)评估中引入大型语言模型(LLM)为评估生成内容质量提供了新的途径,本文提供了对利用LLM进行NLG评估的全面概述,包括组织现有基于LLM的评估指标的一致性分类法、批判性评估不同的LLM方法以及比较其在评估NLG输出中的优势和局限性,讨论未解决的挑战,并推动更公平、更先进的NLG评估技术。
Jan, 2024
自然语言生成(NLG)的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的NLG评估方法,探讨了它们的优势和劣势,讨论了人机合作的NLG评估,并提出了该领域的几个开放问题和未来的研究方向。
Feb, 2024
研究论文从自然语言生成任务的角度全面评估了ChatGPT、ChatGLM、基于T5的模型、基于LLaMA的模型和基于Pythia的模型等众所周知且表现良好的大型语言模型的性能,并提出了一种常见的评估设置,其中包括输入模板和后处理策略,通过与详细分析相结合的自动结果来报告研究结果。
May, 2024
通过引入黑盒对抗性评估框架AdvEval,利用强大的语言模型作为数据生成器和金标评估器,自动优化对抗数据并产生强烈的人工评估与受害评估之间的不一致性,实现了对自然语言生成系统进行鲁棒性评估的研究。在12个受害评估器和11个自然语言生成数据集上的实验证明了AdvEval的有效性。
May, 2024