FactLLaMA: 使用外部知识优化指令跟随语言模型以进行自动事实检验
通过利用外部知识库的一致性或大模型的置信度,以及直接优化算法,我们在不需要人工标注的情况下,对语言模型进行微调,明显提高了生成候选项的正确性,并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。
Nov, 2023
自动事实核查(使用机器学习来验证主张)已经变得至关重要,因为虚假信息已经超出了人类事实核查的能力范围。大型语言模型(LLMs),如 GPT-4,越来越受人们的信任,可以验证信息并撰写学术论文、诉讼文件和新闻文章,强调了它们在分辨真假和能够验证其输出的重要性。在这里,我们通过让 LLM 代理人表达查询、检索上下文数据和做出决策来评估 LLMs 在事实核查中的使用。重要的是,在我们的框架中,代理人解释他们的推理并引用检索到的相关来源。我们的结果显示,在配备上下文信息的情况下,LLMs 表现出更强大的能力。GPT-4 优于 GPT-3,但准确性取决于查询语言和主张的真实性。虽然 LLMs 在事实核查方面显示出前景,但仍需要谨慎使用,因为准确性不一致。我们的调研呼吁进一步研究,以更深入地了解代理人何时成功以及何时失败。
Oct, 2023
我们提出了 FACT-GPT 这个系统,利用大型语言模型 (LLMs) 自动化事实核查中的索引匹配阶段。FACT-GPT 经训练后,可以识别与先前被揭穿的声明相符、相悖或无关的社交媒体内容。我们的评估结果表明,我们专门训练的 LLMs 在识别相关声明方面的准确性与更大型的模型相当,与人类判断非常接近。这项研究提供了一种高效的声明匹配自动化解决方案,展示了 LLMs 在支持事实核查员方面的潜力,并为该领域的进一步研究提供了宝贵的资源。
Feb, 2024
该研究介绍了一种针对大型语言模型输出进行事实准确性注释的综合解决方案,包括多阶段的注释方案和注释工具的设计,以识别 LLM 输出中的可验证性和事实不一致性,并构建了三个层次粒度的开放领域文档级事实性基准。初步实验结果表明,已有工具在识别错误声明方面存在困难,最佳 F1=0.53。
Nov, 2023
本文探索了利用语言模型自带的知识来创建基于 LM 的事实检查器的方法,并在闭卷条件下展示了我们的零 - shot LM 方法在标准 FEVER 任务上优于随机基准线,而我们的微调 LM 与标准基准线相比表现出色。虽然我们最终没有超越使用显式知识库的方法,但我们相信我们的探索显示出这种方法是可行的,并且有很大的发展空间。
Jun, 2020
本研究提出了一种 LLm-Augmenter 系统,它通过使用存储在特定任务数据库中的外部知识和迭代地根据效用函数生成的反馈来改善 LLM 的提示,从而使其生成基于外部知识的响应,实现了应用到任务导向对话和问题回答的实际场景中,显著减少 ChatGPT 模型的幻觉。
Feb, 2023
通过使用 FACT-GPT 框架,我们介绍了一种自动化事实核查的方法,该方法利用大型语言模型 (LLMs) 的主张匹配阶段来识别新的社交媒体内容,无论是支持还是反驳之前被事实核查人员驳斥的主张。研究结果表明,我们的精细调节的 LLMs 在主张匹配任务中与更大型的预训练 LLMs 的性能相媲美,与人工标注结果密切一致。
Oct, 2023
对多模态大型语言模型在事实检查方面的能力和局限性进行了系统评估,发现 GPT-4V 在识别恶意和误导性多模态论断方面表现出优越性能,具备解释不合理方面和潜在动机的能力,同时已有的开源模型存在强烈的偏见,并对提示非常敏感。这项研究为对抗虚假多模态信息和构建安全可靠的多模态模型提供了启示,据我们所知,这是第一次对多模态大型语言模型进行真实世界事实检查的评估。
Mar, 2024
该研究通过对大型语言模型在事实检查方面的潜力进行初步调查,系统评估了它们在处理特定事实检查子任务中的能力,并与预训练和最先进的低参数模型进行了性能对比分析。实验证明大型语言模型在大多数场景中取得了与其他小型模型相媲美的性能,但在处理中文事实验证和整个事实检查流程中遇到了语言不一致和虚构的挑战,这些发现强调了进一步探索和研究以增强大型语言模型作为可靠事实检查器的能力,并揭示了在事实检查任务中可能面临的挑战。
Nov, 2023
大语言模型(LLMs),尤其是适用于聊天的指导模型,已成为我们日常生活中的一部分,通过在一个地方提供简单的答案,使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而,很多情况下,LLM 的回答是错误的,这限制了它们在实际场景中的适用性。因此,对评估和改进 LLM 的事实准确性的研究近年来引起了很多关注。在这项调查中,我们以批判性的角度分析现有的工作,旨在确定主要的挑战及其关联的原因,指出改进 LLM 的潜在解决方案,分析开放式文本生成的自动事实准确性评估的障碍,并展望未来研究的方向。
Feb, 2024