BotChat: 评估 LLMs 在进行多轮对话方面的能力

Oct, 2023

BotChat: 评估 LLMs 在进行多轮对话方面的能力

BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues

Haodong Duan, Jueqi Wei, Chonghua Wang, Hongwei Liu, Yixiao Fang...

TL;DR利用 GPT-4 对人类风格的多轮对话进行评估，发现大语言模型在生成多轮对话方面具有出色的质量，明显优于其他模型。

Abstract

Interacting with human via high-quality multi-turn dialogues is a key feature of large language models (LLMs). However, human-based evaluation

large language models multi-turn dialogues evaluation human-style gpt-4

发现论文，激发创造

使用大型语言模型评估聊天的三种方法

本文通过三种不同的方法，基于大型语言模型（LLMs）对于 ChatGPT 响应的逐轮质量进行预测，并使用动态少量样本来改善基准，并分析了其他两种方法的性能并提出未来研究的改进。研究表明，Llama 2 模型正在缩小 ChatGPT 和开源 LLMs 之间的性能差距，但发现 Llama 2 模型不能像 ChatGPT 那样从少量样本中受益。

Aug, 2023

对话评估工作台：将 LLMs 作为类人对话系统进行评估

本文提出了 DialogBench，这是一个用于评估 LLMs 作为类似人类对话系统的能力的对话评估基准，包含 12 个对话任务。通过对 28 个 LLMs 进行广泛的测试，结果表明虽然细化调整能改善 LLMs 的人类对话系统相似度，但对于大多数 LLMs 仍有提升空间。

Nov, 2023

MT-Eval: 大型语言模型的多轮能力评估基准

通过分析人类 - 大型语言模型对话，我们将互动模式分为回忆、扩展、细化和后续四种类型，构建多轮查询来评估多轮会话能力，结果显示大多数模型在多轮设置中性能下降，影响因素为相关内容距离和错误传播敏感性。

Jan, 2024

ChatEval：基于多智能体辩论的 LLM 评估器改进

通过多代理辩论框架，构建了一个名为 ChatEval 的多代理裁判团队，用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量，分析结果表明 ChatEval 不仅仅提供文本评分，还提供了模拟人类评估过程以进行可靠评估。

Aug, 2023

ChatLLM 网络：更多的智能，更多的大脑

本文提出 ChatLLM 网络，利用多个基于 ChatGPT 的对话语言模型协同解决问题的能力，加入了一种反向传递更新系统，展现了这个网络在问题解决方面的显著性能提升。

Apr, 2023

大型语言模型作为自动对话评估器的有效性综合分析

自动对话评估的研究中，大型语言模型、神经度量指标以及元评估数据集的应用，以及模型层次和维度层次的集成对评估性能的影响进行了全面的研究。

Dec, 2023

基于 LLM 的多轮对话系统的最新进展综述

本研究综述了基于大型语言模型 (LLMs) 的多轮对话系统的研究进展，包括适应 LLMs 到下游任务的方法，最近在多轮对话系统中的 LLM-based 开放领域对话 (ODD) 和任务导向对话 (TOD) 系统的进展，并且讨论了 LLMs 的发展和对多轮对话系统需求增加所引起的一些未来重点和最近的研究问题。

Feb, 2024

一个多任务、多语言、多模态的 ChatGPT 推理、幻觉和交互评估

本文提出了一个评估 ChatGPT 等交互式 LLM 的框架，使用公开数据集进行多任务、多语言和多模态方面的评估，发现 ChatGPT 能够生成多模态内容，但是其推理能力较差，存在幻觉问题，但通过 “提示工程” 可以与人类协作，提高性能。

Feb, 2023

MathChat：多轮交互中数学推理和指令遵循的基准评估

这篇论文介绍了一个专门设计用来评估大型语言模型在更广泛的数学任务上的 MathChat 基准测试，并观察到这些模型在单回合问题回答方面表现出色，但在需要持续推理和对话理解的复杂场景下性能显著下降。通过开发 MathChat sync 这样一个用于提升模型对话能力和指令跟随能力的合成对话型数学数据集，实验结果强调了使用类似 MathChat sync 这样多样化的对话指令微调数据集训练大型语言模型的必要性。作者认为这项工作为改进大型语言模型的多轮数学推理能力指明了一个有希望的方向，推动了更擅长交互式数学问题解决和实际应用的大型语言模型的发展。

May, 2024

SoulChat: 通过微调多轮同理心对话，提升 LLMs 的同理心、倾听和安慰能力

通过使用多轮对话历史记录和更接近心理咨询师表达方式的回复进行微调，可以显著增强大型语言模型在心理辅导领域的共情能力。

Nov, 2023