大型语言模型作为自动对话评估器的有效性综合分析
使用大型语言模型(LLMs)评估文本质量近来变得流行。本文分析了 LLM 评估(Chiang 和 Lee,2023)和 G-Eval(Liu et al.,2023),讨论了评估过程中的细节如何改变 LLMs 给出的评分与人类评分的相关性。我们发现 G-Eval 中使用的自动思维链(CoT)并不总是使 G-Eval 与人类评分更加一致。我们还表明,强制 LLM 仅输出数字评分,如 G-Eval 中所示,是不理想的。最后,我们揭示出要求 LLM 解释其自身评分会持续改善 ChatGPT 与人类评分之间的相关性,并在两个元评估数据集上推动了最新技术的相关性。
Oct, 2023
本文探讨了大型语言模型在对话评估上的应用,发现训练模型的数据集的多样性和相关性是影响其性能的关键因素,同时探究了样本数量和使用类型对模型表现的影响。
Jan, 2023
我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架,并创建了一个用于评估 LLM-based 评估器的精心策划的数据集,该数据集覆盖 10 种语言,包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能,结果表明,基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好,而 GPT-3.5-Turbo 的表现不佳。此外,我们对 LLM-based 评估器提供的推理进行分析,发现它往往与人类评判所提供的推理不一致。
Apr, 2024
该论文探讨了使用大型语言模型(LLMs)进行自动对话质量评估的方法,并在公共和专有数据集上尝试了各种配置。结果表明,更大的模型产生了更准确的对话标签;算法选择背景上下文示例优于随机选择;在输出最终标签之前,使用 “思维链”(CoT)推理和标签提取过程进行合理化,可以提高性能;精细调整的 LLMs 优于开箱即用的模型。研究结果表明,合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。
Jun, 2024
自然语言生成(NLG)评估中引入大型语言模型(LLM)为评估生成内容质量提供了新的途径,本文提供了对利用 LLM 进行 NLG 评估的全面概述,包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性,讨论未解决的挑战,并推动更公平、更先进的 NLG 评估技术。
Jan, 2024
研究论文从自然语言生成任务的角度全面评估了 ChatGPT、ChatGLM、基于 T5 的模型、基于 LLaMA 的模型和基于 Pythia 的模型等众所周知且表现良好的大型语言模型的性能,并提出了一种常见的评估设置,其中包括输入模板和后处理策略,通过与详细分析相结合的自动结果来报告研究结果。
May, 2024
通过自动和人工评估,我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估,发现 ChatGPT 在大多数指标上始终优于其他流行模型,而使用经典的自动评估指标时,得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多,表明许多流行基准的质量较低。最后,我们发现 GPT-4 能够在特定任务的变异性较小的情况下,对模型输出进行排名,与人类判断趋于一致,但在语法错误纠正任务中的排名一致性较低。
Oct, 2023
本文提出了 LLM-Eval,一种针对使用大型语言模型(LLM)的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面,LLM-Eval 可以在单个模型调用中进行。我们对 LLM-Eval 在各种基准数据集上的性能进行了全面评估,表明它相对于最先进的评估方法具有高效性和适应性。同时,该分析还强调了选择适当的 LLM 和解码策略以获得准确评估结果的重要性。LMM-Eval 为评估开放领域对话系统提供了一种多功能且强大的解决方案,可以简化评估过程并在不同场景中提供一致的性能。
May, 2023
为了提高诊断效率,增强医疗诊断的技术潜力,我们建立了一种评估标准 (LLM-specific Mini-CEX),通过自动对话评估与 ChatGPT 的交互并替代人工评估,可以有效评估医疗诊断对话和比较不同 LLMs 之间的质量。
Aug, 2023
大语言模型(LLMs)的评估方法是研究这些模型的重要组成部分,这篇综述介绍了评估 LLMs 的方法和维度,并总结了 LLMs 在不同任务中的成功案例、失败案例和未来挑战。
Jul, 2023