CHARP: 基于知识驱动的对话系统的会话历史意识探测

ACLMay, 2024

CHARP: 基于知识驱动的对话系统的会话历史意识探测

CHARP: Conversation History AwaReness Probing for Knowledge-grounded Dialogue Systems

Abbas Ghaddar, David Alfonso-Hermelo, Philippe Langlais, Mehdi Rezagholizadeh, Boxing Chen...

TL;DR在此研究中，我们深入研究了一个受关注的知识驱动对话基准基础上诚实性，FaithDial，我们发现 FaithDial 数据包含相当多的注释错误，可能导致模型完全忽略对话历史。因此，我们引入了 CHARP，一个用于改进对话模型中幻觉评估的诊断测试集。CHARP 不仅测量幻觉，还测量模型在对话任务上的遵守程度。我们的广泛分析显示，模型主要在 CHARP 上表现不佳，原因是它们无法有效地关注和推理对话历史。此外，FaithDial 的评估方法未能捕捉到这些缺点，忽略了对话历史。我们的发现表明，在知识驱动对话的数据集创建和幻觉评估方面仍有很大的改进空间，而 CHARP 可以作为监督该特定研究领域进展的工具。CHARP 可以通过此 https URL 公开获取。

Abstract

In this work, we dive deep into one of the popular knowledge-grounded dialogue benchmarks that focus on faithfulness, faithdial. We show that a significant portion of the faithdial data contains →

knowledge-grounded dialogue faithdial annotation artifacts hallucination evaluation conversation history

发现论文，激发创造

FaithDial: 一个忠实的对话信息寻求基准

本研究提出了一种数据中心的解决方案，利用 FaithDial 数据集为基础，设计了识别和消除幻觉对话的模型，并证明 FaithDial 数据集可以作为高质量对话生成模型的训练信号，并且可推广到其他数据集上。

Apr, 2022

对话系统中事实幻觉模式的深入探究

该研究通过人工反馈分析，提出了一种针对知识图谱 (Knowledge Graph) 聊天机器人中存在的事实幻觉问题的实体级幻觉检测系统，并创建了 FADE 合成数据集，用于与已建立的基准进行比较。

Jan, 2023

DiaHalu: 大型自然语言模型的对话级幻觉评估基准

这项研究提出 DiaHalu，这是我们所知的第一个基于对话级别的幻觉评估基准。我们整合了收集的主题，促进了两个 ChatGPT3.5 之间的对话，并对不符合人类语言约定的内容进行手动修改，然后再由语言模型重新生成，模拟真实的人机互动场景。DiaHalu 覆盖了四个常见的多轮对话领域和五个幻觉亚类，从事实和忠实度幻觉进行扩展。在该数据集上，一些知名的大型语言模型和检测方法的实验证明 DiaHalu 是一个具有挑战性的基准，对进一步的研究具有重要价值。

Mar, 2024

HELMA: 面向大型语言模型的大规模幻想评估基准测试

本研究引入了 Hallucination Evaluation for Large Language Models（HELMA）基准来评估 LLM 的幻觉表现，并提出了基于 ChatGPT 的取样 - 过滤框架来生成大规模的，人类标注的幻觉数据集，并指出 ChatGPT 生成幻觉的概率较大，现有的 LLM 在识别文本幻觉方面面临巨大挑战，但可通过提供外部知识或添加推理步骤来改善表现。

May, 2023

智能友好的对话代理：基于知识和角色认知的应用

本论文提出了一种有效的对话代理，同时考虑外部知识和个性，通过检索增强生成和知识个性增强查询来生成话语，实现了更少幻觉和更有吸引力的对话，在自动指标上的基于个性和知识的对话任务达到了最先进的性能，同时，通过人类评估和定性结果证明了模型对话的幻觉和吸引力，验证了检索的有效性。

Jan, 2023

HalluDial: 自动对话层次的大规模幻觉评估基准

提出 HalluDial，这是首个用于自动对话级幻觉评估的综合大规模基准测试。HalluDial 包含了以上文提到的内容，并包括了分为自发和感应性的幻觉情景，并涵盖了实际性幻觉和忠实性幻觉。

Jun, 2024

神经路径猎人：通过路径基础减少对话系统中的臆想

本研究提出了一种生成 - 修正策略的模型 Neural Path Hunter ，利用知识图谱的 k-hop 子图修正神经对话模型生成的结果以提高结果的正确性，并在 OpenDialKG 数据集上进行了实验证明在信实度上有 20.35% 的相对提升。

Apr, 2021

揭开塞壬之歌：迈向可靠的事实冲突幻觉检测

通过 FactCHD 基准测试，评估 Large Language Models 中事实性的判断，在检测虚假信息方面取得了有效成果，且当前方法在准确检测事实错误方面存在不足。

Oct, 2023

基于快速原型设计的护士病人症状监测对话理解系统

本文旨在通过构建人 - 人对话数据集来快速搭建一种对话理解系统，从而实现对医院对话的深度理解，更好地进行病症筛查和分流。

Mar, 2019

对话历史表示在对话问答中的鲁棒性：一项综合研究及新的基于提示的方法

本文介绍了一个对于会话式问题回答系统的历史建模方法的鲁棒性研究。通过大规模的实验检测，发现高测试评分未必能转化为鲁棒性，而不同的方法在不同的设置下表现极不相同。因此，设计了一种基于提示的历史建模方法，实现了在不同环境下的强鲁棒性。希望本研究的结论会引起人们对鲁棒性的重视，从而创造出更好的会话式问题回答系统。

Jun, 2022