FaithDial: 一个忠实的对话信息寻求基准
提出 HalluDial,这是首个用于自动对话级幻觉评估的综合大规模基准测试。HalluDial 包含了以上文提到的内容,并包括了分为自发和感应性的幻觉情景,并涵盖了实际性幻觉和忠实性幻觉。
Jun, 2024
BeInfo 是一种简单而有效的方法,应用行为调整以增加信息寻求对话系统的忠实度,并展示了在数据集和领域见过和未见过的情况下,具有良好性能和超越 GPT4 的潜力。
Nov, 2023
这项研究提出 DiaHalu,这是我们所知的第一个基于对话级别的幻觉评估基准。我们整合了收集的主题,促进了两个 ChatGPT3.5 之间的对话,并对不符合人类语言约定的内容进行手动修改,然后再由语言模型重新生成,模拟真实的人机互动场景。DiaHalu 覆盖了四个常见的多轮对话领域和五个幻觉亚类,从事实和忠实度幻觉进行扩展。在该数据集上,一些知名的大型语言模型和检测方法的实验证明 DiaHalu 是一个具有挑战性的基准,对进一步的研究具有重要价值。
Mar, 2024
开发值得信赖的对话式信息搜索系统依赖于能够基于相关知识文本生成忠实准确响应的对话模型。我们通过引入一种新的奖励函数利用强化学习算法来克服数据偏见和冗余信息的两个主要挑战,并在两个对话式信息搜索数据集上的实证实验中展示了我们的方法可以与其他强大的监督学习基准相竞争。
Nov, 2023
研究知识基础对话系统,控制生成神经对话模型,加入不同的评估措施作为样式控制以鼓励模型生成有据可依的响应,并通过人类评估研究判断控制生成模型的产出通常更加客观和有据可依。
Jul, 2021
通过构建一个名为 DialFact 的测试基准数据集,该数据集包含了 22,245 个带注释的对话声明和来自维基百科的证据片段,并提出了在对话中事实核查的三个子任务:可验证的声明检测、证据检索和索取的内容足够详细的陈述是否被支持。针对 DialFact 的独特挑战,本文提出了一种简单而数据效率高的解决方案,以有效提高对话中的事实核查性能。
Oct, 2021
本文提出系统研究 faithfulness metrics 在对话摘要任务上的应用,发现对于绝大部分度量方法而言,在对话数据上的表现与人类判断的相关性较差。为了提高 faithfulness metrics 在对话摘要任务上的性能,我们还采用了 fine-tuning on in-domain dataset 和 unlikelihood training on negative samples 等技术。最后提出 T0-Score 度量方法,其在多个领域上均能稳定提高评价性能。
Nov, 2022
我们介绍了 FAITHSCORE(Faithfulness to Atomic Image Facts Score),这是一个无需参考的细粒度评估指标,用于衡量大型视觉语言模型(LVLMs)生成的自由形式答案的忠实度。我们的度量方法与人类对忠实程度的判断高度相关,结果显示当前系统容易生成与图像不符的产生幻觉的内容,留下了改进的空间。此外,我们发现当前的 LVLMs 虽然在颜色和计数方面表现良好,但在回答长度较长、关系和多个对象方面仍然存在困难。
Nov, 2023
该研究通过人工反馈分析,提出了一种针对知识图谱 (Knowledge Graph) 聊天机器人中存在的事实幻觉问题的实体级幻觉检测系统,并创建了 FADE 合成数据集,用于与已建立的基准进行比较。
Jan, 2023