- Holmes:语言模型的语言能力基准测试
提出了 Holmes 语言模型能力评估基准,通过使用基于分类器的探测来评估语言模型的语言能力。分析 50 多个语言模型发现,其语言能力与模型大小相关,同时模型架构和指令调整也显著影响性能,特别是在形态和语法方面。最后,提出了 FlashHo - ACL比较基于模板和基于自由模型的语言模型探测
通过比较专家制定的模板和自然发生的文本对填空任务语言模型进行探测的差异,我们评估了 16 种不同的模型在 10 个针对英语数据集的探测中,其中 4 个基于模板,6 个基于无模板,以回答以下研究问题:(RQ1)两种方法之间的模型排名是否不同? - 安卓是否知道自己只是梦见了电子羊?
我们设计了在转换器语言模型的内部表示上训练的探针,这些探针能够预测其在上下文生成任务中产生的臆想行为。通过创建一个有机和合成臆想的跨任务的跨度注释数据集来促进这种检测。我们发现在合成臆想的强解码状态上训练的探针在有机臆想检测中通常是生态上无 - 能否利用探测来更好地理解 BERT NLU 的微调和知识蒸馏?
本论文通过 probing 调查 fine-tuning 和 knowledge distillation 过程中,BERT 基础的自然语言理解(NLU)模型出现的现象。实验结果表明,当前形式的 probing 范式不适合回答这些问题,因此 - EMNLP建筑瓶颈原则
本文研究了神经网络组件从输入的表示中可以提取多少信息,提出了建立合适探针的原则,并用该原则评估了 transformers 的句法信息提取能力。实验发现,BERT、ALBERT 和 RoBERTa 等模型的表示中可以提取句法信息,但这些信息 - EMNLP基于具体性的合集模型用于名词属性预测的可视化
本文提出了一种利用图像来补充语言模型信息的方法,并在排名任务中验证了该模型在名词属性预测上的优越性,相较于仅使用文本的语言模型。
- EMNLP利用探测预测微调性能
本研究探讨了使用轻量 Probing 方法去解释 NLP 模型内在机制的方法,通过对三项探测测试的准确性精确预测了模型的调优表现,为 NLP 模型的发展提供了可能。
- ACL通过提示探测
本文提出了一种无模型的探测方法 —— 提示探测法,通过在 5 个探测任务上的实验表明,这种方法在提取信息方面与诊断探针相当或更好,并且可以自我学习得更少。此外,结合关注头修剪与提示探测法,分析模型在其架构中存储语言信息的位置,并通过删除对特 - ACL自然语言下形态 - 句法因果分析
本文提出了一种自然语言中以输入层面干预的方法,使用这种方法可以对神经网络模型进行因果探究,实验结果表明,这种自然干预的方法可以稳定地估算出各种语言属性的因果影响,这在分析预训练模型时非常重要。
- ACL探究语法数的使用
通过对 BERT 模型进行探究研究,本文发现利用线性编码能够提升模型在数字任务上的性能,同时发现了名词和动词之间的语法数有不同的编码方式,并且还找出了传递名词语法数信息到其头部动词的模型层数。
- ACL有标注依赖树的探究
DepProbe 是一个能够从嵌入中提取有标签和有向依赖解析树的线性探针,使用的参数较少,计算复杂度较低,并且在选择最佳转移语言以训练完整的双仿效注意解析器方面表现卓越。
- ACL探究作为归纳偏好的定量化
该研究旨在通过贝叶斯框架度量文本中的归纳偏差量,并通过对 Contextual embeddings 的探究,比较了 fastText 和 BERT 在不同任务上的性能表现差异。
- EMNLP信息熵探测的贝叶斯框架
该论文提出了一种名为贝叶斯互信息的新框架,它从贝叶斯代理的角度分析信息,使得在有限数据情况下处理可以帮助增加信息的同时也有可能削减信息,更加符合机器学习应用的直觉,最终将该框架运用到探针任务中,通过限制可用背景知识来实现抽取的易于性。
- EMNLP对话回复生成中的常识解释探究
该研究旨在通过探究响应生成模型对常识推理的理解程度以诱发适当的响应来缩小当前响应生成模型和人类沟通能力之间的差距,探测 RG 模型的常识推理能力并提出了两个探针设置来评估 RG 模型的常识推理功能。结果表明,模型无法捕获常识解释和响应之间的 - ACLDirectProbe: 无需分类器的表示研究
本研究基于任务版本的概念,通过发展一种启发式工具 DirectProbe 直接研究表示物的几何结构,揭示了嵌入空间如何表示标签,并预测了分类器的性能。
- ACL我的表征是否捕获了 X?探究可能性
该论文介绍了一种名为 Probe-Ably 的可扩展探测框架,该框架自动化应用不同的探测方法,以实现可靠探测神经模型中的中间特征。
- EMNLP预训练变压器中微调和句子级探测在语言知识中的相互作用
本文研究了 BERT、RoBERTa、ALBERT 三个预训练模型在句子级探测下,微调如何影响它们的表示。发现微调对于探测任务的准确性有着重大影响,但不同模型和任务的影响有所不同。在发现微调对于探测有着积极或消极的影响时,需进行慎重解释。
- ACL遗忘探针:用遗忘反事实解释行为
本研究提出了 Amnesic Probing 方法,用以替代传统的伪推式分析方法,并通过对 BERT 进行一系列分析,发现伪推性能并不与任务重要性相关,并呼吁加强对从伪推结果中得出行为或因果结论的主张的审查。
- ACL信息论探针用于语言结构探索
本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度,即探针,发现在评估中应选择表现最好的模型,即使它是更复杂的模型,以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。