利用机器翻译的事实性检测 —— 德国临床文本的应用案例
通过利用外部知识库的一致性或大模型的置信度,以及直接优化算法,我们在不需要人工标注的情况下,对语言模型进行微调,明显提高了生成候选项的正确性,并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。
Nov, 2023
利用生成式预训练模型合成高质量文本的出现,使得辨识生成文本中的事实错误面临挑战。本文提出了一种名为 FacTool 的任务和领域无关框架,用于检测大型语言模型(如 ChatGPT)生成文本中的事实错误,并在基于知识的问答、代码生成、数学推理和科学文献综述等四个不同任务上进行了实验证明了该方法的有效性。
Jul, 2023
自动事实核查引起了过去几十年的广泛关注, 由于在线平台上虚假信息的扩散增加。本调查主要关注多语言数据和方法,讨论现有努力检测需求核查的言论。我们提出了一项综合调查,介绍了最新的多语言言论检测研究,主要涉及可验证性,优先级和相似性三个问题因素。此外,我们详细概述了现有的多语言数据集,以及存在的挑战,并提出可能的未来发展方向。
Jan, 2024
大语言模型(LLMs),尤其是适用于聊天的指导模型,已成为我们日常生活中的一部分,通过在一个地方提供简单的答案,使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而,很多情况下,LLM 的回答是错误的,这限制了它们在实际场景中的适用性。因此,对评估和改进 LLM 的事实准确性的研究近年来引起了很多关注。在这项调查中,我们以批判性的角度分析现有的工作,旨在确定主要的挑战及其关联的原因,指出改进 LLM 的潜在解决方案,分析开放式文本生成的自动事实准确性评估的障碍,并展望未来研究的方向。
Feb, 2024
通过使用 FACT-GPT 框架,我们介绍了一种自动化事实核查的方法,该方法利用大型语言模型 (LLMs) 的主张匹配阶段来识别新的社交媒体内容,无论是支持还是反驳之前被事实核查人员驳斥的主张。研究结果表明,我们的精细调节的 LLMs 在主张匹配任务中与更大型的预训练 LLMs 的性能相媲美,与人工标注结果密切一致。
Oct, 2023
提出了一种神经机器翻译的方法,利用一种新的候选采样策略,基于强化学习技术提高翻译模型的机器导向性,从而产生最适合用作特定下游任务的自然语言处理组件输入的翻译结果,这种方法可以显著提高英文分类器对 Twitter 数据的情感分类的性能。
Oct, 2019
通过生成 AI 控制虚假信息的自动事实检查方法正在变得越来越重要,然而,事实声明检测遭遇了任务定义不一致与手动注释成本高昂的两个主要问题。为了解决这些问题,我们提出了 Automtic Factual Claim deTection Annotator (AFaCTA) 框架,通过大型语言模型的帮助来辅助地标事实声明,并通过三个预定的推理路径自动校准其注释置信度,从而提高了注释的效率和分类器的质量。
Feb, 2024
本论文提出了一个新的多语言数据集 MultiClaim,其中包含 28k 个社交媒体帖子和 206k 个来自专业事实核查人员写的 39 种语言的事实核查。我们评估了不同的非监督方法在这个数据集上的效果,并显示对这样一个多样化的数据集进行评估具有复杂性,需要在解释结果之前采取适当的措施。我们还评估了一种监督微调方法,显著提高了非监督方法的性能。
May, 2023
该研究介绍了一种针对大型语言模型输出进行事实准确性注释的综合解决方案,包括多阶段的注释方案和注释工具的设计,以识别 LLM 输出中的可验证性和事实不一致性,并构建了三个层次粒度的开放领域文档级事实性基准。初步实验结果表明,已有工具在识别错误声明方面存在困难,最佳 F1=0.53。
Nov, 2023