高维度干预检测:自然语言推理案例研究
大型语言模型在医学领域中的应用是分析和调查临床试验的任务,本研究使用记忆探测方法研究在临床试验上训练的 Sci-five 模型,通过训练任务特定的探测器,调整模型以提高准确性,并发现探测器的大小对调整流程产生影响。
Feb, 2024
本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度,即探针,发现在评估中应选择表现最好的模型,即使它是更复杂的模型,以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。
Apr, 2020
本文讨论了自然语言处理系统中之前探测语言结构方法的缺陷,并提出了基于多元高斯探针的内在探测框架,以便于检测词向量的语言信息。通过 36 种语言的实验证明,多数形态语法特征由少数神经元可靠编码,而 fastText 相较于 BERT 更加集中其语言结构。
Oct, 2020
本文探讨了如何评估语义特征对语言模型预测的因果效应以及如何利用因果分析方法构建比较模型来评估 NLI 任务,强调因为可解释性和模型评估的需要,对于具有足够结构化和规律性的推理模式进行系统分析是非常有价值的
May, 2023
该研究介绍了在 24 种语言中引入 15 种类型级别的探究任务,测试诸如情况标记、单词长度、形态标记计数和伪词识别等特定语法特征和语言提示的分类任务,以便探索词嵌入或黑盒神经模型的多语言语言线索,发现许多探究测试具有与子任务的显着高正相关性,特别是对于形态丰富的语言。
Mar, 2019
本文提出了一种新的潜变量公式用于构建内在探测器以确定语言属性所在位置,并提出一个可行的变分逼近方法,用于求解对数似然函数计算,结果表明这个模型能够获得更好的内部探测精度,并且在跨语言的形态句法方面表现良好。
Jan, 2022
大型语言模型容易返回虚假信息,为了解决这个问题,该研究探索了一种介入推理时间的范式,引入了非线性探测和多标记介入方法,称之为 Non-Linear ITI。该方法在多种多项选择基准测试中取得了鼓舞人心的结果,并且在与其他基线和模型相比的实验中表现得更为非侵入性。
Mar, 2024
本研究通过比较语义结构来表示前提和假设之间的语义关系,使用可解释的度量标准计算假设是否是前提的语义子结构,并在三个英文基准测试中评估了使用语境化嵌入和语义图表达的价值,并发现它们提供了互补的信号,并可以在混合模型中一起利用。
Jun, 2023
本文提出了一种方法来探测在预训练语言模型中进行逻辑推理需要的语言现象,发现预训练语言模型对于一些推理所需要的语言信息进行了编码,同时也发现了有一些信息的编码比较弱,但是预训练语言模型通过微调能够有效地学习到缺失的语言信息。这些结果为语言模型作为支持符号推理方法的语义和背景知识库的潜力提供了有价值的见解。
Dec, 2021
利用因果效应估计策略衡量上下文干预和插入词对于推理标签的影响,通过广泛的干预研究验证模型对不相关变化的稳健性和对有影响变化的敏感性。
Apr, 2024