基于 LLM 的聊天机器人性能评估：方法与指标

Aug, 2023

基于 LLM 的聊天机器人性能评估：方法与指标

Benchmarking LLM powered Chatbots: Methods and Metrics

Debarag Banerjee, Pooja Singh, Arjun Avadhanam, Saksham Srivastava

TL;DR自动对话代理、聊天机器人、生成式人工智能工具、基准评估、E2E 基准评估在评估聊天机器人的准确性和有用性方面显示了比其他评测方法更好的结果。

Abstract

autonomous conversational agents, i.e. chatbots, are becoming an increasingly common mechanism for enterprises to provide support to customers and partners. In order to rate →

autonomous conversational agents chatbots generative ai tools benchmarking e2e benchmark

发现论文，激发创造

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

基础指标：基于生成式人工智能的医疗对话效果量化

人工智能的生成模型将通过将传统医疗转变为更加个性化、高效和主动的过程来革命性地改变医疗服务的交付，而聊天机器人作为互动对话模型将可能推动医疗的这种以患者为中心的转变。通过提供诊断、个性化的生活方式建议和心理健康支持等各种服务，旨在显著增强患者的健康结果，同时减轻医疗服务提供者的工作负担。本文的目的是探索适用于评估医疗互动对话模型的最新大型语言模型（LLM）评估指标，并提出一套全面的评估指标，旨在从最终用户的角度全面评估医疗聊天机器人的性能。这些指标包括语言处理能力的评估、对真实世界临床任务的影响以及对用户互动对话的有效性评估。最后，我们对定义和实施这些指标所面临的挑战进行讨论，特别强调评估过程中涉及的目标受众、评估方法和提示技术等混淆因素。

Sep, 2023

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

Chatbot Arena: 通过人类偏好评估 LLM 的开放平台

Chatbot Arena 是一种基于人类偏好评估大型语言模型的开放平台，通过对接受众来源的成对比较和众包输入的方式收集数据，并使用经过验证的统计方法进行评估和排名，以确保其可靠性和可信度，成为最有价值和最引用的大型语言模型排行榜之一。

Mar, 2024

语言模型委员会：以共识的方式对高度主观任务进行基准测试基础模型

通过民主过程提出了一种新的基准框架 —— 语言模型委员会（LMC），用于在高度主观的任务中对大型语言模型进行排名，通过平等参与来制定测试集，通过集体评估响应来产生更可分离、强健且较少偏差的排名。

Jun, 2024

基于 LLM 的人工智能聊天机器人的全面调查

本文全面调查了基于大型语言模型（LLMs）的聊天机器人在各个领域的进化和部署，总结了基础聊天机器人发展、LLMs 演进，并提供了当前正在使用和开发中的基于 LLMs 的聊天机器人概述。我们将 AI 聊天机器人视为生成新知识的工具，探讨了它们在各个行业中的多样应用。然后，我们讨论了一些挑战，包括训练 LLMs 使用的数据和生成知识的滥用可能引发的问题。最后，我们展望未来，探索如何提升它们在众多应用中的效率和可靠性。通过介绍 LLMs-based 聊天机器人的关键里程碑和当今背景，我们的调查邀请读者深入研究这一领域，并思考它们的下一代将如何重塑对话型人工智能。

Jun, 2024

通过人工反馈评估大型语言模型：建立瑞典基准

在人工智能领域，大型语言模型在多个应用中展示出显著的能力。然而，这些模型在资源较少的语言（如瑞典语）中的表现尚未深入研究。本研究引入了一种综合的人类基准，通过强制选择排序来评估主要的语言模型在理解和生成瑞典语文本方面的有效性。我们使用改进的 ChatbotArena 基准测试，结合人类反馈来评估包括 GPT-4、GPT-3.5、各种 Claude 和 Llama 模型以及定制模型（如 Dolphin-2.9-llama3b-8b-flashback 和 BeagleCatMunin）等十一种不同模型的性能。这些模型是基于它们在 LMSYS chatbot arena 和 Scandeval 基准测试中的表现选择的。我们发布 chatbotarena.se 基准测试作为一种工具，以改善我们对瑞典语语言模型性能的理解，并希望它能被广泛使用。我们的目标是在收集和分析足够的数据后创建一个排行榜。

May, 2024

通过提示逼近人类对社交聊天机器人的评估

提出了一种利用 GPT 模型进行对话系统评估的新框架，通过对模型进行特定条件训练来生成评估指标，采用少量的演示和指导进行提示，可以在自动化评估过程中取得与人类评价高度相关的结果。

Apr, 2023

评估 LLM 申请的挑战：自动、人工和基于 LLM 的方法分析

聊天机器人的评估是一个重要问题，本研究介绍了一种综合评估机制，该机制结合了人类评估和基于 LLM 的评估，并通过实验证明基于因子的评估在 LLM 应用中提供更好的洞察力，进一步加强了在主要功能不是直接检索的关键空间中使用人类评估的论点。

Jun, 2024

代码生成评估的基准和指标：一项关键性回顾

对大型语言模型在编程任务中的评估工作进行了关键综述，着重讨论了现有工具的评估中使用的基准和度量标准，并提出了进一步研究的方向。

Jun, 2024