SLIDE: 一个融合小型和大型语言模型的开放领域对话评估框架

May, 2024

SLIDE: 一个融合小型和大型语言模型的开放领域对话评估框架

SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation

Kun Zhao, Bohao Yang, Chen Tang, Chenghua Lin, Liang Zhan

TL;DR使用Small and Large Integrated for Dialogue Evaluation（SLIDE）框架，结合小型专门模型（SLM）和大型语言模型（LLMs）来解决开放领域对话系统中的一对多问题和领域特定场景下的性能不佳问题。该方法通过对比学习、语义敏感度度量和结合SLM和LLMs的评估结果等技术，实现了分类和评估任务的最新性能，并且SLIDE评估器与人工判断更好地相关。

Abstract

The long-standing one-to-many problem of gold standard responses in open-domain dialogue systems presents challenges for automatic evaluation met

发现论文，激发创造

DialoGLUE：面向任务导向对话的自然语言理解基准

本文介绍了 DialoGLUE，一种公共基准，旨在鼓励对话研究的表示转移，领域自适应和样本有效任务学习。通过 DialoGLUE 基准，基线方法和评估脚本，我们希望促进发展更为通用的任务导向型对话模型。

Sep, 2020

LLM-Eval：用于大型语言模型开放域对话的统一多维自动评估

本文提出了LLM-Eval，一种针对使用大型语言模型（LLM）的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面，LLM-Eval可以在单个模型调用中进行。我们对LLM-Eval在各种基准数据集上的性能进行了全面评估，表明它相对于最先进的评估方法具有高效性和适应性。同时，该分析还强调了选择适当的LLM和解码策略以获得准确评估结果的重要性。LMM-Eval为评估开放领域对话系统提供了一种多功能且强大的解决方案，可以简化评估过程并在不同场景中提供一致的性能。

May, 2023

使用下一句预测和互信息在潜空间中评估开放领域对话

提出一种利用条件变分自编码器和下一句预测目标来处理开放领域对话的评估方法，该方法在潜空间中运用互信息建模以考虑文本语义相似性，实验证明这种学习基方法在处理含有语义不同的多个恰当回复时优于其他模型。

May, 2023

简单的LLM提示是稳健多语言对话评估的尖端技术

研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式，提出了一种新颖的框架，以实现对对话的鲁棒性和多语言性评估能力，并在多个基准测试中取得了最先进的成果，并在DSTC11轨道4“开放领域对话系统的自动评估指标”中分别在鲁棒性和多语言任务中名列前茅，证明了提示性大语言模型的评估能力。

Aug, 2023

xDial-Eval: 多语言开放领域对话评估基准

使用预训练语言模型和高质量标注的对话数据，最近关于开放域对话评估的无参考学习测量的进展主要集中在英文对话上，对这些测量指标在其他语言上的泛化性还没有得到充分研究。因此，为了解决这个问题，我们引入了一个基于英文对话评估数据集的xDial-Eval来进行多语言对话评估基准测试，并建立了自监督和多语言基线模型。与OpenAI的ChatGPT相比，最好的基线模型在所有数据集和语言上的平均Pearson相关系数分别提升了6.5%和4.6%，同时具有更少的参数。

Oct, 2023

大型语言模型作为自动对话评估器的有效性综合分析

自动对话评估的研究中，大型语言模型、神经度量指标以及元评估数据集的应用，以及模型层次和维度层次的集成对评估性能的影响进行了全面的研究。

Dec, 2023

PairEval：使用配对比较进行开放域对话评价

提出了一种基于对话响应之间的比较评估的对话评估度量方法PairEval，该度量方法比基准度量方法更具鲁棒性，并且与人类判断的相关性更高。

Apr, 2024

结构化信息的重要性：将抽象意义表示引入到LLMs中以提高开放域对话评估

我们提出了一个简单而有效的开放域对话评估框架，通过将领域特定语言模型（SLMs）与LLMs结合起来，明确地通过门控机制将对话的抽象意义表示（AMR）图信息融入到LLM的提示中，以提高上下文学习性能，并在开放域对话评估任务中的实验结果证明了我们方法在区分对抗性负面回应方面的优越性。

Apr, 2024

利用LLMs进行对话质量测量

该论文探讨了使用大型语言模型（LLMs）进行自动对话质量评估的方法，并在公共和专有数据集上尝试了各种配置。结果表明，更大的模型产生了更准确的对话标签；算法选择背景上下文示例优于随机选择；在输出最终标签之前，使用“思维链”（CoT）推理和标签提取过程进行合理化，可以提高性能；精细调整的LLMs优于开箱即用的模型。研究结果表明，合适地调整和具有足够推理能力的LLMs可以用于自动对话评估。

Jun, 2024

关于开放领域对话评估的LLMs基准测试

大型语言模型已在自然语言处理各个任务中显示出卓越的能力。然而，在自动开放领域对话评估方面，现有的评估基准往往依赖于过时的数据集，评估流畅度和相关性等方面，无法充分捕捉现代聊天机器人模型的能力和限制。本论文对当前的评估基准进行了批判性研究，强调使用旧的响应生成器和质量方面未能准确反映现代聊天机器人的能力。对近期LLM生成的数据集(SODA)进行的小型注释实验揭示了GPT-4等LLM评估者在检测当前LLM聊天机器人生成的对话中的实际问题方面存在困难。

Jul, 2024