语言模型中的真值判断:信念方向是上下文敏感的
本文探讨了大型语言模型在知识获取任务中通过设计启示策略,特别是意见为基础的提示和反事实演示,有效提高了上下文的真实性,并在三个数据集上进行实验,结果表明在上下文中的忠实度有了显著提高。
Mar, 2023
通过用概念向量探测和激活推断期间的激活来引导隐藏表示,该论文将概念引导的研究拓展到诸如适应性、幽默、创造力和质量等更丰富的概念,探索现有检测和引导策略在这些挑战性环境中的工作程度,同时开发了一种新的以概念引导为度量的指标来评估,研究显示,一些概念如真实性相对容易通过现有技术进行引导,而适应性或幽默等新概念则更难探测和引导,并需要进一步调整。
Feb, 2024
语言模型在其输入语境中容易受到偏见、阿谀奉承、后门等倾向的影响,解释语言模型的内部状态可以帮助监控和纠正不忠实的行为。本研究假设语言模型在一个潜在的世界模型中表示其输入语境,并通过 “命题探测器” 提取这个潜在的世界状态。
Jun, 2024
神经语言模型可用于评估事实陈述的真实性,工作发现查询与探测过程有时存在不一致性,故探测更为准确,且存在三种不一致类别:编造、欺骗和异质性。
Nov, 2023
大语言模型 (LLM) 可以输出令人印象深刻的结果,但也容易输出错误信息。最近的研究开发了一种通过对 LLM 的内部激活进行训练推断 LLM 是否在讲真话的技术。然而,这一研究领域颇具争议,一些作者指出该方法在一些基本方面无法推广,存在概念上的问题。在本研究中,我们精心策划了一组高质量的真 / 假语句数据集,并利用这些数据集详细研究了 LLM 对真实性的表示结构,从三个方面获得证据:1. 展示 LLM 真 / 假语句表示的可视化结果,揭示了明显的线性结构;2. 将在一个数据集上训练的推断器推广到不同数据集的转移实验;3. 通过对 LLM 前向传递进行手术干扰,使其将假语句视为真实或将真实语句视为假。总体而言,我们提出证据表明语言模型线性地表示事实陈述的真实性或虚假性。我们还介绍了一种新技术,质量均值推断法,比其他推断技术具有更好的推广性和更多地与模型输出相关。
Oct, 2023
大型语言模型 (LLMs) 面临处理事实知识的问题,本研究通过知识探测框架 BELIEF (-ICL),从多个角度评估编码器型和解码器型大型语言模型对事实知识的理解能力,并利用多样的提示数据集 MyriadLAMA 进行可靠的评估,揭示了大型语言模型在学习事实方面的关键因素和基于提示的知识探测的局限性。
Jun, 2024
探讨了利用提示进行监督微调测试 LM 在方向谓词蕴含方面的能力。提出了一个名为 BoOQA 的评估基准,旨在评估 LM 在方向谓词蕴含方面的表现,结果显示现有的 LM 模型无法胜任方向蕴含的学习任务,而基于蕴含图的模型表现较好。
Oct, 2022
利用一个名为 AlterRep 的方法,运用因果分析技术对多语言模型的内部结构进行研究,发现大规模多语言模型中存在着既有语言特定的组件又有语言通用组件,并展示了反事实推理方法在多语言模型上的应用前景。
Oct, 2023
我们通过转化问题、多选题和直接文本补全的实验评估,研究了大型语言模型(LLMs)在因果推理、不确定性方面能力的量化,结果显示 LLMs 的表态答案与预测真实信念存在显著差异,提示它们的信念可能在多种情景和结果中存在多重偏见和不准确性,对于 LLMs 能力的评估方法仅提供了部分信息,需要进一步研究其能力的广度和本质。
Jun, 2024