对话评估工作台：将 LLMs 作为类人对话系统进行评估

Nov, 2023

对话评估工作台：将 LLMs 作为类人对话系统进行评估

DialogBench: Evaluating LLMs as Human-like Dialogue Systems

Jiao Ou, Junda Lu, Che Liu, Yihong Tang, Fuzheng Zhang...

TL;DR本文提出了 DialogBench，这是一个用于评估 LLMs 作为类似人类对话系统的能力的对话评估基准，包含 12 个对话任务。通过对 28 个 LLMs 进行广泛的测试，结果表明虽然细化调整能改善 LLMs 的人类对话系统相似度，但对于大多数 LLMs 仍有提升空间。

Abstract

large language models (llms) have achieved remarkable breakthroughs in new dialogue capabilities, refreshing human's impressions on dialogue syst

large language models dialogue systems human-like evaluation benchmark llms

发现论文，激发创造

BotChat: 评估 LLMs 在进行多轮对话方面的能力

利用 GPT-4 对人类风格的多轮对话进行评估，发现大语言模型在生成多轮对话方面具有出色的质量，明显优于其他模型。

Oct, 2023

理解大型语言模型在对话评估中的效果

本文探讨了大型语言模型在对话评估上的应用，发现训练模型的数据集的多样性和相关性是影响其性能的关键因素，同时探究了样本数量和使用类型对模型表现的影响。

Jan, 2023

通过提示逼近人类对社交聊天机器人的评估

提出了一种利用 GPT 模型进行对话系统评估的新框架，通过对模型进行特定条件训练来生成评估指标，采用少量的演示和指导进行提示，可以在自动化评估过程中取得与人类评价高度相关的结果。

Apr, 2023

使用 MT-Bench 和 Chatbot Arena 判断 LLM 作为法官

本研究介绍了使用强大的大型语言模型（LLM）作为评价者来评估基于 LLM 的聊天助手的方法，并引入了多个类别的评价指标。研究结果表明，LLM 评价者可以很好地匹配人类的偏好，且其评估结果与人类评估者的结果一致。

Jun, 2023

大型语言模型能否替代人类评估？

本文介绍了使用大型语言模型（LLM）代替人类评估来评估人工智能生成的文本的潜力，探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果，并发现 LLM 评估结果与人类专家的评估结果保持一致。

May, 2023

LLM 对于面向任务的对话系统是否足够？

本研究旨在研究大型语言模型在多轮任务和与外部数据库交互方面的能力，发现在显式信仰状态跟踪方面，它们表现不如专门的任务特定模型，但是如果给出正确的插槽值，它们表现出将对话引导到成功结局的能力，并且在有真实信仰状态分布或域内示例的情况下，这种能力得到了改进。

Apr, 2023

对话模型的节约提示

研究了使用大型语言模型建立对话系统的不同方法，并分析了对话历史的表示方式，提出了一种更紧凑的提供对话历史信息的方法，从而有效减少模型 API 的成本。

May, 2023

大型语言模型作为自动对话评估器的有效性综合分析

自动对话评估的研究中，大型语言模型、神经度量指标以及元评估数据集的应用，以及模型层次和维度层次的集成对评估性能的影响进行了全面的研究。

Dec, 2023

利用 LLMs 进行对话质量测量

该论文探讨了使用大型语言模型（LLMs）进行自动对话质量评估的方法，并在公共和专有数据集上尝试了各种配置。结果表明，更大的模型产生了更准确的对话标签；算法选择背景上下文示例优于随机选择；在输出最终标签之前，使用 “思维链”（CoT）推理和标签提取过程进行合理化，可以提高性能；精细调整的 LLMs 优于开箱即用的模型。研究结果表明，合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。

Jun, 2024

简单的 LLM 提示是稳健多语言对话评估的尖端技术

研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式，提出了一种新颖的框架，以实现对对话的鲁棒性和多语言性评估能力，并在多个基准测试中取得了最先进的成果，并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅，证明了提示性大语言模型的评估能力。

Aug, 2023