光谱探测
本文讨论了自然语言处理系统中之前探测语言结构方法的缺陷,并提出了基于多元高斯探针的内在探测框架,以便于检测词向量的语言信息。通过 36 种语言的实验证明,多数形态语法特征由少数神经元可靠编码,而 fastText 相较于 BERT 更加集中其语言结构。
Oct, 2020
利用信息论探测套件,我们分析了 9 项任务,涵盖语法、语义和推理,在 2 百万次预训练步骤和 5 个种子中,识别了关键学习阶段,语法知识在全面训练的 0.5% 后迅速获得,持续性能改善主要来自对开放域知识的获取,而语义和推理任务则受益于后期对长距离语境化和更高专业化的提升,跨任务相似性的测量进一步揭示了语言相关任务在训练期间共享信息,这在关键学习阶段比之前或之后更为明显。我们的发现对模型可解释性、多任务学习和有限数据学习具有重要意义。
Oct, 2023
该研究介绍了在 24 种语言中引入 15 种类型级别的探究任务,测试诸如情况标记、单词长度、形态标记计数和伪词识别等特定语法特征和语言提示的分类任务,以便探索词嵌入或黑盒神经模型的多语言语言线索,发现许多探究测试具有与子任务的显着高正相关性,特别是对于形态丰富的语言。
Mar, 2019
以语义结构探测为方法,对来自不同家族(仅编码器、仅解码器、编码解码器)和大小的语言模型进行实验,评估其在语义文本相似度和自然语言推理方面的性能和层次动态,发现模型家族在性能和层次动态上存在显著差异,但结果大部分与模型大小无关。
Oct, 2023
本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度,即探针,发现在评估中应选择表现最好的模型,即使它是更复杂的模型,以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。
Apr, 2020
该研究通过分析神经元在不同时间尺度下的激活行为,提出了一种自然的信号处理框架来分离不同尺度上的结构,并应用谱滤波器训练模型在不同尺度上进行学习,产生了更好的预测性能。
Nov, 2020
本篇论文提出了一种探测任务的方法,通过训练分类器来比较各种最新的文本 - 图像语义嵌入,揭示了语义嵌入中存在的问题并提出了问题解决方案。实验结果表明,视觉 - 语义嵌入的识别准确率比单媒体嵌入提高了 12% 以上。
Feb, 2021
本文提出了一种新的潜变量公式用于构建内在探测器以确定语言属性所在位置,并提出一个可行的变分逼近方法,用于求解对数似然函数计算,结果表明这个模型能够获得更好的内部探测精度,并且在跨语言的形态句法方面表现良好。
Jan, 2022
该论文提出了一种信息论探针 Bird's Eye,用于检测自然语言处理模型中语言图谱中的信息如何编码,以及一种名为 Worm's Eye 的探针方法,可用于调查语言图谱中的局部语言信息。通过这些探针,作者分析了 BERT 模型对句法和语义图结构的编码能力,并发现这些模型在某种程度上编码了句法和语义信息,但对句法信息的编码水平更高。
May, 2021