GameEval:对话游戏下 LLM 的评估
本文探索了一种方法,即在特定的游戏场景中测试大型语言模型的表现,以此来深入了解它们是否能像环境理解代理一样进行操作,涵盖了五个交互设置,并表明当前聊天优化的大型语言模型在一定程度上能够遵循游戏规则,并且用于衡量游戏表现和调查 LLM 的性能具有诊断价值。
May, 2023
通过多代理辩论框架,构建了一个名为 ChatEval 的多代理裁判团队,用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量,分析结果表明 ChatEval 不仅仅提供文本评分,还提供了模拟人类评估过程以进行可靠评估。
Aug, 2023
本文提出了 LLM-Eval,一种针对使用大型语言模型(LLM)的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面,LLM-Eval 可以在单个模型调用中进行。我们对 LLM-Eval 在各种基准数据集上的性能进行了全面评估,表明它相对于最先进的评估方法具有高效性和适应性。同时,该分析还强调了选择适当的 LLM 和解码策略以获得准确评估结果的重要性。LMM-Eval 为评估开放领域对话系统提供了一种多功能且强大的解决方案,可以简化评估过程并在不同场景中提供一致的性能。
May, 2023
本文介绍了利用大型语言模型进行对话推荐的研究,并提出了一种基于 LLM 的用户模拟器的交互式评估方法 iEvaLM,从而改善了现有的评估协议。在两个公共数据集上的实验表明,ChatGPT 展现出较大的优势,并强调解释性的评估。此研究有助于更深入地理解 LLMs 在 CRSs 中的潜力,并为未来的研究提供一个更灵活、易于使用的评估框架。
May, 2023
通过多轮讨论辅助的 ScaleEval 元评估框架,充分利用多个交流能力的大语言模型代理进行可伸缩元评估,帮助人工标注员判断最有能力的大语言模型作为评估者,从而显著减轻他们的工作量。
Jan, 2024
使用大型语言模型(LLMs)评估文本质量近来变得流行。本文分析了 LLM 评估(Chiang 和 Lee,2023)和 G-Eval(Liu et al.,2023),讨论了评估过程中的细节如何改变 LLMs 给出的评分与人类评分的相关性。我们发现 G-Eval 中使用的自动思维链(CoT)并不总是使 G-Eval 与人类评分更加一致。我们还表明,强制 LLM 仅输出数字评分,如 G-Eval 中所示,是不理想的。最后,我们揭示出要求 LLM 解释其自身评分会持续改善 ChatGPT 与人类评分之间的相关性,并在两个元评估数据集上推动了最新技术的相关性。
Oct, 2023
大型语言模型已在自然语言处理各个任务中显示出卓越的能力。然而,在自动开放领域对话评估方面,现有的评估基准往往依赖于过时的数据集,评估流畅度和相关性等方面,无法充分捕捉现代聊天机器人模型的能力和限制。本论文对当前的评估基准进行了批判性研究,强调使用旧的响应生成器和质量方面未能准确反映现代聊天机器人的能力。对近期 LLM 生成的数据集 (SODA) 进行的小型注释实验揭示了 GPT-4 等 LLM 评估者在检测当前 LLM 聊天机器人生成的对话中的实际问题方面存在困难。
Jul, 2024