非线性结构探针

ACLMay, 2021

A Non-Linear Structural Probe

Jennifer C. White, Tiago Pimentel, Naomi Saphra, Ryan Cotterell

TL;DR在研究了线性探测器的限制条件后，我们针对六种语言提出了一种具有同样参数数量的非线性变体，并使用径向基函数（RBF）核函数进行了测试，发现在所有语言中，RBF 核函数与正则化相结合能够显著提高基线（Baseline）的性能。

Abstract

probes are models devised to investigate the encoding of knowledge -- e.g. syntactic structure -- in contextual representations.

probes syntactic structure contextual representations linear transformations non-linear variant

发现论文，激发创造

用非线性力量击打 “探测性” 及更多

通过使用非线性结构探测器来研究编码信息的结构特点，这篇论文提出了一种简化而有效的非线性结构探测器设计，并设计了一个可视化框架来定性地评估句子中两个词之间的连接强度，并用于探索 BERT 在各层中编码的依赖关系树的结构。研究发现，径向基函数（RBF）比线性探测器对 BERT 模型更有效。

Feb, 2024

探针与解析器的故事

本研究对比了一个新型结构探针和传统解析器，发现两种方法在不同语言上效果并存，提出了关于使用哪种技术的问题。

May, 2020

基于维度选择的内在探测

本文讨论了自然语言处理系统中之前探测语言结构方法的缺陷，并提出了基于多元高斯探针的内在探测框架，以便于检测词向量的语言信息。通过 36 种语言的实验证明，多数形态语法特征由少数神经元可靠编码，而 fastText 相较于 BERT 更加集中其语言结构。

Oct, 2020

信息论探针用于语言结构探索

本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度，即探针，发现在评估中应选择表现最好的模型，即使它是更复杂的模型，以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。

Apr, 2020

使用正交结构探测器检查跨语言上下文嵌入

该研究通过使用新型正交结构探针，针对比较语言特征研究并评估了 9 种不同语言中 mBERT 的语境表示所编码的句法和词汇结构信息，并发现对于与英语密切相关的语言，在跨语言嵌入空间中无需进行转换，而对于其他语言，则需要学习分别进行的正交转换。

Sep, 2021

通过线性结构探测研究变压器句子嵌入的语义子空间

以语义结构探测为方法，对来自不同家族（仅编码器、仅解码器、编码解码器）和大小的语言模型进行实验，评估其在语义文本相似度和自然语言推理方面的性能和层次动态，发现模型家族在性能和层次动态上存在显著差异，但结果大部分与模型大小无关。

Oct, 2023

在双曲空间中探究 BERT

本研究使用 Poincare 探针将 contextualized word embeddings 映射到具有明确定义层次结构的 Poincare 子空间中，发现在句法子空间中我们的探针比欧几里德探针更好地恢复了树结构，同时在情感子空间中，我们揭示了正面情感和负面情感的两种潜在的元嵌入，并展示了词汇受控情境化将如何改变嵌入的几何定位。

Apr, 2021

DirectProbe: 无需分类器的表示研究

本研究基于任务版本的概念，通过发展一种启发式工具 DirectProbe 直接研究表示物的几何结构，揭示了嵌入空间如何表示标签，并预测了分类器的性能。

Apr, 2021

探究低资源语言句子嵌入：有关探究任务评估的结构设计选项

通过研究嵌入式语句在较少语言资源环境下的探测技术，揭示了探测数据集规模和分类器等结构设计选择对探测结果影响很大，同时，强调英语探测结果无法转移至其他语言，未来应进行更公平和全面的多语言句子级探测任务评估。

Jun, 2020

探究上下文词向量的句子结构学习

研究比较四种最近的模型对句子结构的编码情况，发现语言模型和翻译模型训练出的模型对句法现象具有强大的表现，但对语义任务的改进相对较小。

May, 2019