LM vs LM: 通过交叉审查检测事实性错误
评估大型语言模型产生的文本的真实性是一个新兴而关键的研究领域,目的是提醒用户潜在错误并引导更可靠的语言模型的开发。为了解决这个问题,我们介绍了一个名为 felm 的大型语言模型真实性评估基准,该基准收集了来自语言模型的响应并以细化的方式注释了真实性标签。通过使用文本片段进行注释,我们可以帮助定位具体的事实错误。然而,我们的实验证实,当前的语言模型在忠实地检测事实错误方面还远远不够满意。
Oct, 2023
通过提出新的数据集 SummEdits 来解决现有基准测试中存在的缺点,该数据集比以前的数据集更高效且高度可重复。然而,大多数 LL 模型在 SummEdits 上表现不佳,最好的 GPT-4 模型仍然比人类的表现差 8%,这凸显了 LL 模型在推理和检测事实不一致方面的能力差距。
May, 2023
提出了一种新颖的自我检测方法,通过扩展问题的文本表达并收集相应的答案,检测大型语言模型(LLMs)是否会产生虚假回答,证明了该方法在 LLM 效果上的有效性。
Oct, 2023
通过利用外部知识库的一致性或大模型的置信度,以及直接优化算法,我们在不需要人工标注的情况下,对语言模型进行微调,明显提高了生成候选项的正确性,并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。
Nov, 2023
本文探索了利用语言模型自带的知识来创建基于 LM 的事实检查器的方法,并在闭卷条件下展示了我们的零 - shot LM 方法在标准 FEVER 任务上优于随机基准线,而我们的微调 LM 与标准基准线相比表现出色。虽然我们最终没有超越使用显式知识库的方法,但我们相信我们的探索显示出这种方法是可行的,并且有很大的发展空间。
Jun, 2020
大语言模型(LLMs),尤其是适用于聊天的指导模型,已成为我们日常生活中的一部分,通过在一个地方提供简单的答案,使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而,很多情况下,LLM 的回答是错误的,这限制了它们在实际场景中的适用性。因此,对评估和改进 LLM 的事实准确性的研究近年来引起了很多关注。在这项调查中,我们以批判性的角度分析现有的工作,旨在确定主要的挑战及其关联的原因,指出改进 LLM 的潜在解决方案,分析开放式文本生成的自动事实准确性评估的障碍,并展望未来研究的方向。
Feb, 2024
本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性,并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析,以及对多种提示方法进行研究,最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。
May, 2023
我们引入了一种名为 FactChecker 的新型自动化测试框架,通过构建事实知识图谱、生成包括不同类型问题和正确答案的测试用例,以及使用匹配策略评估大型语言模型的响应准确性,从而揭示了大型语言模型中的事实错误,并展示了测试用例对提高模型的事实准确性的有效性。
Jan, 2024
本研究旨在探讨大型语言模型作为可靠的评估器,用于评估文本生成模型生成的摘要的事实一致性,并发现其在事实性评分中的局限性。
Nov, 2023
通过零样本策略,本研究提出并评估了三种方式来解决实际的矛盾检测问题,并研究了如何精简高效且功效强大的大型语言模型。实验结果表明,适当设计的范式可以使大型语言模型在无需训练的情况下解决此问题,平均超越强训练基线 2.8%。为了进一步提高实用性,我们提出了训练策略,旨在通过高准确性一次对整个摘要进行评分的方式来精简开源大型语言模型,其效果优于较大的零样本大型语言模型,成为一种有效且高效的可即用得分器。
Feb, 2024