评估无法评估的内容:无法评估生成响应的质量
我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架,并创建了一个用于评估 LLM-based 评估器的精心策划的数据集,该数据集覆盖 10 种语言,包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能,结果表明,基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好,而 GPT-3.5-Turbo 的表现不佳。此外,我们对 LLM-based 评估器提供的推理进行分析,发现它往往与人类评判所提供的推理不一致。
Apr, 2024
本文介绍了使用大型语言模型(LLM)代替人类评估来评估人工智能生成的文本的潜力,探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果,并发现 LLM 评估结果与人类专家的评估结果保持一致。
May, 2023
该论文探讨了使用大型语言模型(LLMs)进行自动对话质量评估的方法,并在公共和专有数据集上尝试了各种配置。结果表明,更大的模型产生了更准确的对话标签;算法选择背景上下文示例优于随机选择;在输出最终标签之前,使用 “思维链”(CoT)推理和标签提取过程进行合理化,可以提高性能;精细调整的 LLMs 优于开箱即用的模型。研究结果表明,合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。
Jun, 2024
通过比较三种基于 ChatGPT 或类似大型语言模型的无参考评估方法,实验证明 ChatGPT 能够有效地从不同角度评估文本质量,尤其是利用 ChatGPT 生成数字评分的 Explicit Score 方法最有效可靠。但是,直接使用 ChatGPT 比较两个文本的质量可能导致次优结果。
Apr, 2023
通过多轮讨论辅助的 ScaleEval 元评估框架,充分利用多个交流能力的大语言模型代理进行可伸缩元评估,帮助人工标注员判断最有能力的大语言模型作为评估者,从而显著减轻他们的工作量。
Jan, 2024
本研究探讨了大型语言模型在生成任务中表现出的能力是否同样适用于评估任务,通过使用 TriviaQA 数据集对三个大型语言模型和一个开源语言模型在问答和评估任务中的表现进行评估,结果显示存在显着差异,大型语言模型在评估任务中表现较差。有趣的是,我们发现存在不忠实的评估问题,即模型会在其不擅长的领域正确评估答案,强调了需要审查大型语言模型作为评估者的忠实度和可信度的必要性。本研究有助于理解 “生成型人工智能悖论”(West 等人,2023),强调了需要探索生成卓越性与评估能力之间的关联性,并有必要审视模型评估中的忠实度方面。
Feb, 2024
使用大型语言模型(LLMs)评估文本质量近来变得流行。本文分析了 LLM 评估(Chiang 和 Lee,2023)和 G-Eval(Liu et al.,2023),讨论了评估过程中的细节如何改变 LLMs 给出的评分与人类评分的相关性。我们发现 G-Eval 中使用的自动思维链(CoT)并不总是使 G-Eval 与人类评分更加一致。我们还表明,强制 LLM 仅输出数字评分,如 G-Eval 中所示,是不理想的。最后,我们揭示出要求 LLM 解释其自身评分会持续改善 ChatGPT 与人类评分之间的相关性,并在两个元评估数据集上推动了最新技术的相关性。
Oct, 2023
探究了开放式大型语言模型(LLMs)从结构化数据生成连贯和相关文本的程度,通过使用 Quintd-1 数据集,以及基于语义准确性错误的评估方法,发现开放式 LLMs 可以在零样本情况下从各种标准数据格式生成流畅、一致的文本,但语义准确性仍然是一个主要问题。
Jan, 2024