超越基于参考度量的方法:分析数据到文本生成领域的开放式 LLM 行为
通过自动和人工评估,我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估,发现 ChatGPT 在大多数指标上始终优于其他流行模型,而使用经典的自动评估指标时,得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多,表明许多流行基准的质量较低。最后,我们发现 GPT-4 能够在特定任务的变异性较小的情况下,对模型输出进行排名,与人类判断趋于一致,但在语法错误纠正任务中的排名一致性较低。
Oct, 2023
本研究探讨了大型语言模型(LLMs)在生成人工数据中的不断扩大的作用。尽管人工数据能够与人类性能相匹配,但本文揭示了显著的潜在差异,尤其是在复杂任务中,LLMs 常常错过对内在人类生成内容的微妙理解。该研究批判性地考察了多样化的 LLM 生成数据,并强调了在数据创建和使用 LLMs 时遵循道德实践的必要性。它凸显了解决 LLM 生成内容中产生的偏差和人为因素对于未来研究和开发的重要性。所有数据和代码都可在我们的项目页面上获得。
Jan, 2024
本研究构建了两个方言生成数据集 KdConv-ADV 和 DSTC7-ADV 以综合评估基于 LLMs 的评估器的可靠性,并发现使用基于 LLMs 的参考无关评估器评估对话响应的风险存在。
May, 2023
通过比较三种基于 ChatGPT 或类似大型语言模型的无参考评估方法,实验证明 ChatGPT 能够有效地从不同角度评估文本质量,尤其是利用 ChatGPT 生成数字评分的 Explicit Score 方法最有效可靠。但是,直接使用 ChatGPT 比较两个文本的质量可能导致次优结果。
Apr, 2023
我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架,并创建了一个用于评估 LLM-based 评估器的精心策划的数据集,该数据集覆盖 10 种语言,包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能,结果表明,基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好,而 GPT-3.5-Turbo 的表现不佳。此外,我们对 LLM-based 评估器提供的推理进行分析,发现它往往与人类评判所提供的推理不一致。
Apr, 2024
在医疗笔记和对话中,非结构化文本具有丰富的信息。最近大型语言模型(LLMs)的进展展示了对非结构化文本数据的问题回答和摘要任务的卓越性能,超过了传统的文本分析方法。然而,在文献中缺乏有系统地评估和报告不同 LLMs 性能的科学研究,特别是针对医疗病历等特定领域数据。我们提出了一种评估方法来分析开源 LLMs(如 Llama2 和 Mistral)在医疗摘要任务中的性能,使用 GPT-4 作为评估器。我们创新的 LLMs 定量评估方法可以实现质量控制,支持为特定任务选择有效的 LLMs,并推进数字健康领域的知识发现。
May, 2024
对四个大型语言模型在图数据分析问题上的能力进行评估,结果表明:1)大型语言模型能够有效地理解自然语言的图数据并进行图拓扑推理;2)GPT 模型能够生成逻辑和连贯的结果,在正确性方面优于其他替代方法;3)所有研究中的大型语言模型在结构推理方面面临挑战,零 - shot 推理和少 - shot 提示等技术效果减弱;4)在多答案任务中,GPT 模型常常产生错误答案,引发对可靠性的担忧;5)GPT 模型在输出上表现出较高的自信度,可能影响其纠正错误的能力。值得注意的是,GPT-4 显示了纠正 GPT-3.5-turbo 和其它版本回答的能力。
Aug, 2023
我们通过检测数据污染并提出 “Testset Slot Guessing” 方法,发现商业化的 LLM 在评估基准中有明显的性能改进,并呼吁在该领域使用更强大的评估方法和基准。
Nov, 2023
本文提出了一种新的学习范式,考虑到 LLMS 是常用摘要数据集中的参考标准,用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明,用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型,其性能可以与参考的 LLM 相媲美,通过访问 LLMS 它只需要很小的预算。
May, 2023
评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型(LLMs)的情感分析性能,发现 GPT-4 和 GPT-4-Turbo 在理解语言输入和处理上下文信息方面表现出色,与人的一致性高且决策过程透明,但在非英语环境中的文化细微差别方面存在不稳定性,结果强调了 LLMs 不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。
Jun, 2024