大型语言模型在自然语言生成评估中的积极批评者
本文介绍了使用大型语言模型(LLM)代替人类评估来评估人工智能生成的文本的潜力,探索了LLM对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果,并发现LLM评估结果与人类专家的评估结果保持一致。
May, 2023
为了解决开放式自然语言生成任务中评估标准不一致的挑战,我们提出了一种协同评估流程 CoEval,涉及特定任务标准的清单设计和文本的详细评估,其中大型语言模型生成初步的构思,而人类进行审查,结果显示,通过利用大型语言模型,CoEval能够高效地评估长文本,节省时间并减少人类评估的异常值,人类审查仍然起着重要作用,以最终确保可靠性。
Oct, 2023
自然语言处理社区开始让大规模语言模型(如GPT-4)扮演批评家以评估生成文本质量,大部分仅在特定数据集上训练特定规模的批判生成模型,我们认为缺乏对于基于语言模型评估模型的关键因素(如可扩展性特性)的全面调查,因此目前是否有潜力在实际场景中取代GPT-4的评估仍然没有结论;在本文中,我们提出了一种名为CritiqueLLM的新型批判生成模型,采用基于对话的提示方法用于高质量的参考/无参考评估数据,实验结果表明,我们的模型在评估性能上可以与GPT-4相媲美,尤其在系统级相关性上,甚至在具有挑战性的无参考环境中,在8个任务中有3个胜过GPT-4;我们进行详细分析以展示我们模型在生成批评质量方面的可扩展性特性,同时证明我们生成的批评可以作为可扩展反馈,直接提高LLM的生成质量。
Nov, 2023
自然语言生成(NLG)评估中引入大型语言模型(LLM)为评估生成内容质量提供了新的途径,本文提供了对利用LLM进行NLG评估的全面概述,包括组织现有基于LLM的评估指标的一致性分类法、批判性评估不同的LLM方法以及比较其在评估NLG输出中的优势和局限性,讨论未解决的挑战,并推动更公平、更先进的NLG评估技术。
Jan, 2024
自然语言生成(NLG)的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的NLG评估方法,探讨了它们的优势和劣势,讨论了人机合作的NLG评估,并提出了该领域的几个开放问题和未来的研究方向。
Feb, 2024
通过设计和实际测试,我们发现LLMs在自然语言生成(NLG)评估中存在混淆不同评估标准的问题,这降低了它们的可靠性。为了进一步验证,我们首先总结了一个清晰的层次分类系统,包括11个常见方面的相关标准,然后设计了18种针对不同LLMs评估行为的攻击方法,并进行人工标注验证,揭示了LLMs固有的混淆问题以及其他值得关注的现象,从而为基于LLMs的评估提出了进一步的研究和改进的必要性。
Feb, 2024
通过引入黑盒对抗性评估框架AdvEval,利用强大的语言模型作为数据生成器和金标评估器,自动优化对抗数据并产生强烈的人工评估与受害评估之间的不一致性,实现了对自然语言生成系统进行鲁棒性评估的研究。在12个受害评估器和11个自然语言生成数据集上的实验证明了AdvEval的有效性。
May, 2024
通过利用LLM代理使用Review-Feedback-Reason (ReFeR)的新型评估框架,本研究提出一种评估自然语言生成质量的方法,不仅能够提高NLG评估的准确性,超过以前的基准约20%,还能生成建设性反馈并显著改善集体推理的能力。该方法在三个推理基准测试中表现出色,超过大部分最先进的方法,并在平均水平上比GPT-3.5 Turbo高出约11.67%和GPT-4高出约1%。
Jul, 2024
本研究针对现有自然语言生成(NLG)评估中缺乏对大型语言模型(LLMs)能力探索的问题,提出了“层次扰动的辨别力(DHP)”基准框架。该框架通过层次扰动文本数据与统计测试,为LLMs提供量化的评估分数。研究发现,LLMs在不同NLG任务中的评估能力存在显著差异,为LLMs作为NLG评估者的优势与局限性提供了重要见解。
Aug, 2024