设计和解释带有控制任务的探针

EMNLPSep, 2019

Designing and Interpreting Probes with Control Tasks

John Hewitt, Percy Liang

TL;DR本文研究了通过构造控制任务作为对比，来检验表征模型是否真正编码了语言结构的可能性。通过针对英语词性标注和依存关系预测的控制任务，发现流行的探针在 ELMo 表示上不具有足够的选择性。此外，第二层的探针相比第一层更具有选择性，这引发了关于哪一层更好地表示词性的问题。

Abstract

probes, supervised models trained to predict properties (like parts-of-speech) from representations (like elmo), have achieved high accura

发现论文，激发创造

该研究介绍了在 24 种语言中引入 15 种类型级别的探究任务，测试诸如情况标记、单词长度、形态标记计数和伪词识别等特定语法特征和语言提示的分类任务，以便探索词嵌入或黑盒神经模型的多语言语言线索，发现许多探究测试具有与子任务的显着高正相关性，特别是对于形态丰富的语言。

Mar, 2019

本文探讨了神经模型如何学习语言任务以及词嵌入对模型表现的影响，证明模型可以学习到语言属性，而预训练的词嵌入对于编码这些属性起着重要作用。

May, 2020

本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度，即探针，发现在评估中应选择表现最好的模型，即使它是更复杂的模型，以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。

Apr, 2020

通过研究嵌入式语句在较少语言资源环境下的探测技术，揭示了探测数据集规模和分类器等结构设计选择对探测结果影响很大，同时，强调英语探测结果无法转移至其他语言，未来应进行更公平和全面的多语言句子级探测任务评估。

Jun, 2020

通过引入非可训练任务（指标任务），我们展示了利用适当的指标可以更准确地获取嵌入表示中的信息，并较之探测任务的结果更能反映嵌入空间中存在的属性。因此，我们认为在提取嵌入表示的信息时应考虑实施和考虑指标任务。

Oct, 2023

研究比较四种最近的模型对句子结构的编码情况，发现语言模型和翻译模型训练出的模型对句法现象具有强大的表现，但对语义任务的改进相对较小。

May, 2019

本文提出了一种无模型的探测方法 —— 提示探测法，通过在 5 个探测任务上的实验表明，这种方法在提取信息方面与诊断探针相当或更好，并且可以自我学习得更少。此外，结合关注头修剪与提示探测法，分析模型在其架构中存储语言信息的位置，并通过删除对特定语言属性至关重要的头部来评估预训练的有用性。

Jul, 2022

通过对语言模型进行边缘探测的方法，研究发现，即使是对语言模型进行针对性微调，在边缘探测结果中对于语言的编码并没有显著的变化，推测是因为边缘探测本身容易受到数据集的偏见影响，进行数据偏见校正后可以得到更好的结果。

Sep, 2021

本研究对比了一个新型结构探针和传统解析器，发现两种方法在不同语言上效果并存，提出了关于使用哪种技术的问题。

May, 2020

通过引入 Pareto hypervolume 作为评估度量和依赖文法分析作为更难的探针任务，从而探究探针评估下的文本语言结构和语义表示的性质和限制。

Oct, 2020