评估无法评估的内容：无法评估生成响应的质量

May, 2023

评估无法评估的内容：无法评估生成响应的质量

Evaluate What You Can't Evaluate: Unassessable Generated Responses Quality

Yongkang Liu, Shi Feng, Daling Wang, Yifei Zhang, Hinrich Schütze

TL;DR本研究构建了两个方言生成数据集 KdConv-ADV 和 DSTC7-ADV 以综合评估基于 LLMs 的评估器的可靠性，并发现使用基于 LLMs 的参考无关评估器评估对话响应的风险存在。

Abstract

llms (large language models) such as ChatGPT have shown remarkable language understanding and generation capabilities. Although reference-free evaluators based on →

llms reference-free evaluators adversarial meta-evaluation dialogue generation datasets reliability

发现论文，激发创造

大型语言模型作为自动对话评估器的有效性综合分析

自动对话评估的研究中，大型语言模型、神经度量指标以及元评估数据集的应用，以及模型层次和维度层次的集成对评估性能的影响进行了全面的研究。

Dec, 2023

METAL：面向多语言元评估

我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架，并创建了一个用于评估 LLM-based 评估器的精心策划的数据集，该数据集覆盖 10 种语言，包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能，结果表明，基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好，而 GPT-3.5-Turbo 的表现不佳。此外，我们对 LLM-based 评估器提供的推理进行分析，发现它往往与人类评判所提供的推理不一致。

Apr, 2024

大型语言模型能否替代人类评估？

本文介绍了使用大型语言模型（LLM）代替人类评估来评估人工智能生成的文本的潜力，探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果，并发现 LLM 评估结果与人类专家的评估结果保持一致。

May, 2023

利用 LLMs 进行对话质量测量

该论文探讨了使用大型语言模型（LLMs）进行自动对话质量评估的方法，并在公共和专有数据集上尝试了各种配置。结果表明，更大的模型产生了更准确的对话标签；算法选择背景上下文示例优于随机选择；在输出最终标签之前，使用 “思维链”（CoT）推理和标签提取过程进行合理化，可以提高性能；精细调整的 LLMs 优于开箱即用的模型。研究结果表明，合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。

Jun, 2024

探索使用大型语言模型进行基于参考文本无关的文本质量评估：初步实证研究

通过比较三种基于 ChatGPT 或类似大型语言模型的无参考评估方法，实验证明 ChatGPT 能够有效地从不同角度评估文本质量，尤其是利用 ChatGPT 生成数字评分的 Explicit Score 方法最有效可靠。但是，直接使用 ChatGPT 比较两个文本的质量可能导致次优结果。

Apr, 2023

大型语言模型是否可信用于评估？通过代理辩论对大型语言模型作为评估者进行可扩展元评估

通过多轮讨论辅助的 ScaleEval 元评估框架，充分利用多个交流能力的大语言模型代理进行可伸缩元评估，帮助人工标注员判断最有能力的大语言模型作为评估者，从而显著减轻他们的工作量。

Jan, 2024

评估中的生成 AI 悖论：它能解决的问题，可能无法评估

本研究探讨了大型语言模型在生成任务中表现出的能力是否同样适用于评估任务，通过使用 TriviaQA 数据集对三个大型语言模型和一个开源语言模型在问答和评估任务中的表现进行评估，结果显示存在显着差异，大型语言模型在评估任务中表现较差。有趣的是，我们发现存在不忠实的评估问题，即模型会在其不擅长的领域正确评估答案，强调了需要审查大型语言模型作为评估者的忠实度和可信度的必要性。本研究有助于理解 “生成型人工智能悖论”（West 等人，2023），强调了需要探索生成卓越性与评估能力之间的关联性，并有必要审视模型评估中的忠实度方面。

Feb, 2024

大型语言模型中自我评估提高选择性生成

使用大型语言模型进行自我评估可以提高生成内容的准确性，并与生成内容的整体质量更好地相关。

Dec, 2023

大规模语言模型在自动评估中的深入研究

使用大型语言模型（LLMs）评估文本质量近来变得流行。本文分析了 LLM 评估（Chiang 和 Lee，2023）和 G-Eval（Liu et al.，2023），讨论了评估过程中的细节如何改变 LLMs 给出的评分与人类评分的相关性。我们发现 G-Eval 中使用的自动思维链（CoT）并不总是使 G-Eval 与人类评分更加一致。我们还表明，强制 LLM 仅输出数字评分，如 G-Eval 中所示，是不理想的。最后，我们揭示出要求 LLM 解释其自身评分会持续改善 ChatGPT 与人类评分之间的相关性，并在两个元评估数据集上推动了最新技术的相关性。

Oct, 2023

超越基于参考度量的方法：分析数据到文本生成领域的开放式 LLM 行为

探究了开放式大型语言模型（LLMs）从结构化数据生成连贯和相关文本的程度，通过使用 Quintd-1 数据集，以及基于语义准确性错误的评估方法，发现开放式 LLMs 可以在零样本情况下从各种标准数据格式生成流畅、一致的文本，但语义准确性仍然是一个主要问题。

Jan, 2024