FaithDial: 一个忠实的对话信息寻求基准

ACLApr, 2022

FaithDial: 一个忠实的对话信息寻求基准

FaithDial: A Faithful Benchmark for Information-Seeking Dialogue

Nouha Dziri, Ehsan Kamalloo, Sivan Milton, Osmar Zaiane, Mo Yu...

TL;DR本研究提出了一种数据中心的解决方案，利用 FaithDial 数据集为基础，设计了识别和消除幻觉对话的模型，并证明 FaithDial 数据集可以作为高质量对话生成模型的训练信号，并且可推广到其他数据集上。

Abstract

The goal of information-seeking dialogue is to respond to seeker queries with natural language utterances that are grounded on knowledge sources. However, dialogue systems often produce unsupported utterances, a phenomenon known as →

information-seeking dialogue hallucination faithdial dialogue generation training signal

发现论文，激发创造

HalluDial: 自动对话层次的大规模幻觉评估基准

提出 HalluDial，这是首个用于自动对话级幻觉评估的综合大规模基准测试。HalluDial 包含了以上文提到的内容，并包括了分为自发和感应性的幻觉情景，并涵盖了实际性幻觉和忠实性幻觉。

Jun, 2024

通过行为微调提高信息查找对话的事实准确性

BeInfo 是一种简单而有效的方法，应用行为调整以增加信息寻求对话系统的忠实度，并展示了在数据集和领域见过和未见过的情况下，具有良好性能和超越 GPT4 的潜力。

Nov, 2023

DiaHalu: 大型自然语言模型的对话级幻觉评估基准

这项研究提出 DiaHalu，这是我们所知的第一个基于对话级别的幻觉评估基准。我们整合了收集的主题，促进了两个 ChatGPT3.5 之间的对话，并对不符合人类语言约定的内容进行手动修改，然后再由语言模型重新生成，模拟真实的人机互动场景。DiaHalu 覆盖了四个常见的多轮对话领域和五个幻觉亚类，从事实和忠实度幻觉进行扩展。在该数据集上，一些知名的大型语言模型和检测方法的实验证明 DiaHalu 是一个具有挑战性的基准，对进一步的研究具有重要价值。

Mar, 2024

通过少量专家示范融合奖励函数，实现忠实准确的知识导向对话生成

开发值得信赖的对话式信息搜索系统依赖于能够基于相关知识文本生成忠实准确响应的对话模型。我们通过引入一种新的奖励函数利用强化学习算法来克服数据偏见和冗余信息的两个主要挑战，并在两个对话式信息搜索数据集上的实证实验中展示了我们的方法可以与其他强大的监督学习基准相竞争。

Nov, 2023

通过可控特征提高基于知识的对话的准确性

研究知识基础对话系统，控制生成神经对话模型，加入不同的评估措施作为样式控制以鼓励模型生成有据可依的响应，并通过人类评估研究判断控制生成模型的产出通常更加客观和有据可依。

Jul, 2021

DialFact：对话事实核查基准

通过构建一个名为 DialFact 的测试基准数据集，该数据集包含了 22,245 个带注释的对话声明和来自维基百科的证据片段，并提出了在对话中事实核查的三个子任务：可验证的声明检测、证据检索和索取的内容足够详细的陈述是否被支持。针对 DialFact 的独特挑战，本文提出了一种简单而数据效率高的解决方案，以有效提高对话中的事实核查性能。

Oct, 2021

ED-FAITH: 评估对话摘要的忠实度

本文提出系统研究 faithfulness metrics 在对话摘要任务上的应用，发现对于绝大部分度量方法而言，在对话数据上的表现与人类判断的相关性较差。为了提高 faithfulness metrics 在对话摘要任务上的性能，我们还采用了 fine-tuning on in-domain dataset 和 unlikelihood training on negative samples 等技术。最后提出 T0-Score 度量方法，其在多个领域上均能稳定提高评价性能。

Nov, 2022

FAITHSCORE：评估大型视觉语言模型中的幻觉

我们介绍了 FAITHSCORE（Faithfulness to Atomic Image Facts Score），这是一个无需参考的细粒度评估指标，用于衡量大型视觉语言模型（LVLMs）生成的自由形式答案的忠实度。我们的度量方法与人类对忠实程度的判断高度相关，结果显示当前系统容易生成与图像不符的产生幻觉的内容，留下了改进的空间。此外，我们发现当前的 LVLMs 虽然在颜色和计数方面表现良好，但在回答长度较长、关系和多个对象方面仍然存在困难。

Nov, 2023

对话摘要中忠实度的分析和评估

本文提出了一种系统评估对话摘要的方法，并通过人工分析发现现有模型中有超过 35% 生成的摘要与原始对话不符，其评估工具与样本数据可用于未来的研究。

Oct, 2022

对话系统中事实幻觉模式的深入探究

该研究通过人工反馈分析，提出了一种针对知识图谱 (Knowledge Graph) 聊天机器人中存在的事实幻觉问题的实体级幻觉检测系统，并创建了 FADE 合成数据集，用于与已建立的基准进行比较。

Jan, 2023