FLEEK:基于外部知识检测和修正事实错误
本文介绍了事实错误校正的任务和方法:通过编辑要求以便生成的改写通过证据更好地支持。使用 T5 Transformer 基于远程监督的方法,通过将证据合并到掩码声明中来训练事实错误校正系统。在一个基于最近事实验证共享任务的数据集上进行评估,结果表明我们的方法可以比现有的方法更准确地对事实错误进行校正,在人工评估中将错误校正的数量提高了 5 倍,并且 SARI 分数提高了 0.125。
Jun, 2021
本文介绍了一个新的任务:事实错误纠正。通过将证据整合到掩码声明中进行更正,学习纠正事实错误的系统。本文中提出了一个基于 T5 变压器的两阶段远程监督方法,通过检索证据获得更好的结果,从而取得了更好的性能,并通过人类评估证明了其有效性。
Dec, 2020
评估大型语言模型产生的文本的真实性是一个新兴而关键的研究领域,目的是提醒用户潜在错误并引导更可靠的语言模型的开发。为了解决这个问题,我们介绍了一个名为 felm 的大型语言模型真实性评估基准,该基准收集了来自语言模型的响应并以细化的方式注释了真实性标签。通过使用文本片段进行注释,我们可以帮助定位具体的事实错误。然而,我们的实验证实,当前的语言模型在忠实地检测事实错误方面还远远不够满意。
Oct, 2023
本文提出了一种基于交叉验证的自然语言模型事实评估框架,通过多轮交互和另一个模型的提问来发现不一致性,实验证明该方法在捕捉事实错误方面优于现有方法和基线。
May, 2023
提出了一种使用外部来源进行全自动事实核查的通用框架,该框架利用深度神经网络和 LSTM 文本编码结合任务特定的嵌入来判断声称的真实性,并将来自 Web 的相关文本片段融合其中,考虑其来源可靠性,在两个任务和数据集上均表现不错。
Oct, 2017
通过利用外部知识库的一致性或大模型的置信度,以及直接优化算法,我们在不需要人工标注的情况下,对语言模型进行微调,明显提高了生成候选项的正确性,并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。
Nov, 2023
该研究介绍了一种针对大型语言模型输出进行事实准确性注释的综合解决方案,包括多阶段的注释方案和注释工具的设计,以识别 LLM 输出中的可验证性和事实不一致性,并构建了三个层次粒度的开放领域文档级事实性基准。初步实验结果表明,已有工具在识别错误声明方面存在困难,最佳 F1=0.53。
Nov, 2023
该研究提出了一种基于模型的度量标准,用于评估生成的文本的事实准确性,并引入了一个新的基于维基百科和维基数据的大规模数据集来训练关系分类器和端到端事实提取模型。通过在维基百科文本摘要任务中分析多个模型的准确性并进行人类评估研究,论文展示了这些方法相对于 ROUGE 和其他无模型变量的方法的功效。
May, 2019
通过生成 AI 控制虚假信息的自动事实检查方法正在变得越来越重要,然而,事实声明检测遭遇了任务定义不一致与手动注释成本高昂的两个主要问题。为了解决这些问题,我们提出了 Automtic Factual Claim deTection Annotator (AFaCTA) 框架,通过大型语言模型的帮助来辅助地标事实声明,并通过三个预定的推理路径自动校准其注释置信度,从而提高了注释的效率和分类器的质量。
Feb, 2024