FASTTRACK:快速准确的 LLMs 事实追踪
本研究探讨了语言模型(LM)如何从训练数据中记忆大量的事实知识,同时提出了事实追溯的问题。为了解决该问题,比较了基于梯度和嵌入的两种不同的训练数据指向(TDA)方法,并发现仍有很大的改进空间。
May, 2022
评估大型语言模型的事实记忆能力及其影响因素,涵盖多个领域、知识流行度水平和模型家族,并观察到指令调整对知识召回的负面影响、模型规模对性能的正面影响以及反事实演示对大模型事实知识召回的降低作用。
Apr, 2024
评估大型语言模型产生的文本的真实性是一个新兴而关键的研究领域,目的是提醒用户潜在错误并引导更可靠的语言模型的开发。为了解决这个问题,我们介绍了一个名为 felm 的大型语言模型真实性评估基准,该基准收集了来自语言模型的响应并以细化的方式注释了真实性标签。通过使用文本片段进行注释,我们可以帮助定位具体的事实错误。然而,我们的实验证实,当前的语言模型在忠实地检测事实错误方面还远远不够满意。
Oct, 2023
该研究介绍了一种针对大型语言模型输出进行事实准确性注释的综合解决方案,包括多阶段的注释方案和注释工具的设计,以识别 LLM 输出中的可验证性和事实不一致性,并构建了三个层次粒度的开放领域文档级事实性基准。初步实验结果表明,已有工具在识别错误声明方面存在困难,最佳 F1=0.53。
Nov, 2023
本研究介绍了 LLMTrack 模型,展示了如何利用大型语言模型(LLMs)通过采用一种独特的单提示技术,结合角色扮演和逐步思考方法,处理未经处理的惯性测量单元(IMU)数据,实现零通道轨迹识别。通过对真实世界数据集进行评估,我们发现在室内和室外场景中,LLMTrack 不仅达到了传统机器学习方法以及当代深度学习模型所设定的性能基准,甚至超过了这些基准,而且无需在特定数据集上进行训练。我们的研究结果表明,在经过精心设计的提示的指导下,LLMs 可以利用其丰富的知识库,以极高的效率分析原始传感器数据。
Mar, 2024
通过提出新的数据集 SummEdits 来解决现有基准测试中存在的缺点,该数据集比以前的数据集更高效且高度可重复。然而,大多数 LL 模型在 SummEdits 上表现不佳,最好的 GPT-4 模型仍然比人类的表现差 8%,这凸显了 LL 模型在推理和检测事实不一致方面的能力差距。
May, 2023
通过利用外部知识库的一致性或大模型的置信度,以及直接优化算法,我们在不需要人工标注的情况下,对语言模型进行微调,明显提高了生成候选项的正确性,并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。
Nov, 2023
我们提出了 FACT-GPT 这个系统,利用大型语言模型 (LLMs) 自动化事实核查中的索引匹配阶段。FACT-GPT 经训练后,可以识别与先前被揭穿的声明相符、相悖或无关的社交媒体内容。我们的评估结果表明,我们专门训练的 LLMs 在识别相关声明方面的准确性与更大型的模型相当,与人类判断非常接近。这项研究提供了一种高效的声明匹配自动化解决方案,展示了 LLMs 在支持事实核查员方面的潜力,并为该领域的进一步研究提供了宝贵的资源。
Feb, 2024
基于 LLMs 的内部状态,我们引入了 LLM factoscope,一个基于 Siamese 网络的新型模型,用于事实检测。我们的研究揭示了 LLMs 在生成事实和非事实内容时内部状态的可区分模式,并在各种体系结构上展示了 LLM factoscope 的效果,在事实检测方面达到了超过 96% 的准确率。我们的工作为利用 LLMs 的内部状态进行事实检测开辟了一条新途径,并鼓励进一步探究 LLMs 的内部工作,以提高可靠性和透明度。
Dec, 2023