- 大型语言模型是跨语言无领域知识的推理者
跨语言能力:大型语言模型在不同语言的推理任务中展示出令人印象深刻的推理能力。本研究将推理任务分解为两个独立的部分:知识检索和无知识推理,并分析它们的跨语言可迁移性。通过适应和构建无知识推理数据集,我们展示了无知识推理能力可以在各种资源中几乎 - 语义熵探针:在 LLMs 中稳健且经济的幻觉检测
我们提出了语义熵探针 (SEPs),这是一种在大型语言模型 (LLMs) 中用于量化不确定性的廉价可靠方法。
- CItruS: 分块指令感知的长序列建模状态驱逐
通过引入一种新的建模技术 CItruS,在隐藏状态的清理过程中集成下游任务中有用的注意力偏好,以解决信息忽略的问题,同时设计了一种分块序列处理方法来提高效率,该方法在相同的内存预算下在长序列理解和检索任务上表现出优越性能。
- 动态词:运动预测的表征工程
通过自然语言将运动特征量化为可解释的方式,并测量其在隐藏状态中的嵌入程度,从而使我们能够控制基于 Transformer 的运动预测模型的文本输入,为与这些模型进行交互和理解提供独特的界面。
- 多路径多切片 PHATE: 通过训练可视化 RNN 的隐藏动态
多维多切片 PHATE(MM-PHATE)是一种新颖的方法,用于可视化循环神经网络(RNN)的隐藏状态的演化过程,能独特保持隐藏表示的社区结构,并识别训练期间的信息处理和压缩阶段。
- 我有了 “答案”!问答中 LLMs 隐藏状态的解释
该研究调查了大型语言模型(LLMs)在基于知识的问答环境中的可解释性和可解释性,并提出隐藏状态可以区分正确和错误的模型行为的主要假设。通过测试量化模型 LLaMA-2-7B-Chat、Mistral-7B、Vicuna-7B 和 MuSeR - 语言模型洞察:上下文问答中的归因方法
基于大语言模型的隐藏状态,我们提出了一种新的环境下问答的归因方法,绕过重复训练模型和检索模型开销,提供精细的归因并保持结果质量,在识别出 LLM 生成的文字时表现出与 GPT-4 相当甚至更好的性能,且适用于各种 LLM 架构。
- 并非所有语言模型特征都是线性的
语言模型利用线性表示假说来执行计算,但我们研究表明某些语言模型的表示可能是固有的多维的。我们开发了一种基于不可约多维特征的严格定义,用于确定这些特征是否能够分解为独立或非共现的低维特征。通过使用稀疏自动编码器自动发现 GPT-2 和 Mis - ACL神奇的语义与去寻找它们:探究生成语言模型中反映词汇语义的层面
大型语言模型中的词汇语义在不同层次上具有不同的演化形式,较低层次的表示编码了词汇语义,而较高层次的表示则更适用于预测任务。
- 内部表征视角下的上下文锐度作为警报:减轻幻觉
大型语言模型经常出现虚幻和事实错误,本研究从内部表征的角度探讨了 LLM 幻觉的潜在机制,并发现了与幻觉相关的显著模式:相对于错误生成,正确生成在上下文令牌的隐藏状态中具有更尖锐的上下文激活。基于这一发现,我们提出了一种基于熵的度量方式来量 - LLM 对幻觉是否有了解?LLM 隐藏状态的实证研究
大型语言模型 (LLMs) 可能会产生虚假答案,本研究旨在探讨 LLMs 是否知晓此虚假现象,并研究其反应和程度。通过实验框架检查 LLM 在回答问题和产生虚假回答时的隐藏状态差异,并得出实证发现发现,LLMs 在处理真实回答和虚假回答时有 - 语言模型对数字的理解,至少在某种程度上
研究表明大型语言模型在理解和利用数字以及在数学问题上进行计算方面具有部分能力。
- 探索上下文学习与指导调整之间的关系
In this work, the relationship between In-Context Learning (ICL) and Instruction Tuning (IT) is explored by examining ho - 通过知识蒸馏进行的隐含推理链条
使用语言模型的内部隐藏状态进行隐式推理,通过垂直在不同层的隐藏状态中进行推理来解决以前无法解决的任务,而无需进行明确的思维链条推理。
- 代码库特征:神经网络的稀疏和离散可解释性
神经网络的密集持续隐藏状态的挑战在于其理解,我们通过将连续特征量化为所谓的代码书特征来探索是否能训练神经网络具有稀疏、离散和更可解释的隐藏状态。我们的方法在大多数情况下仍可保持较高性能,并且提供了一种直观的方法来控制神经网络行为,即通过激活 - 一种用于切换脑状态发现的一位通用线性模型
提出了一种基于先验信息的状态切换广义线性模型,通过引入高斯先验和独热先验来捕捉状态恒定的相互作用,从而揭示了潜在的解剖连接和更可能的物理神经元相互作用,同时在多种脑状态下可以捕捉到功能变化。
- 通过解耦位置和上下文揭示 Transformer 中的隐藏几何结构
通过将训练后的 Transformer 的隐藏状态或嵌入分解成可解释的组件,本文介绍了一种简单而有信息量的方法,揭示了输入格式在上下文学习和算术任务中的结构洞察。
- 语言模型的物理学:第 1 部分,无上下文语法
本研究设计实验以探究生成式语言模型如何学习上下文无关文法,并发现了 Transformer 如何利用物理机制隐式地编码文法结构、形成类动态规划的 attention,并在处理语法错误时表现出的鲁棒性方面的相关拓展。
- ACL自回归语言模型隐藏状态的令牌分解分析模型预测
本研究提出了对于近现代 Transformer 架构的自回归语言模型的一种准确的每个初始输入 token 的线性分解,并使用其定义概率分布,以分离出特定的输入 token 对于后续单词序列的影响;回归实验表明,基于 Transformer - POMDPs 和可解释的代理的端到端策略梯度方法
一个 RL 算法,可以通过端到端训练来估算隐藏状态,并将估算可视化为状态转换图。 实验结果表明,该算法可以解决简单的 POMDP 问题,并使代理行为可解释给人类。