本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度,即探针,发现在评估中应选择表现最好的模型,即使它是更复杂的模型,以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。
Apr, 2020
通过研究嵌入式语句在较少语言资源环境下的探测技术,揭示了探测数据集规模和分类器等结构设计选择对探测结果影响很大,同时,强调英语探测结果无法转移至其他语言,未来应进行更公平和全面的多语言句子级探测任务评估。
Jun, 2020
通过引入非可训练任务(指标任务),我们展示了利用适当的指标可以更准确地获取嵌入表示中的信息,并较之探测任务的结果更能反映嵌入空间中存在的属性。因此,我们认为在提取嵌入表示的信息时应考虑实施和考虑指标任务。
Oct, 2023
该研究介绍了在 24 种语言中引入 15 种类型级别的探究任务,测试诸如情况标记、单词长度、形态标记计数和伪词识别等特定语法特征和语言提示的分类任务,以便探索词嵌入或黑盒神经模型的多语言语言线索,发现许多探究测试具有与子任务的显着高正相关性,特别是对于形态丰富的语言。
Mar, 2019
本文提出了一种无模型的探测方法 —— 提示探测法,通过在 5 个探测任务上的实验表明,这种方法在提取信息方面与诊断探针相当或更好,并且可以自我学习得更少。此外,结合关注头修剪与提示探测法,分析模型在其架构中存储语言信息的位置,并通过删除对特定语言属性至关重要的头部来评估预训练的有用性。
Jul, 2022
本文研究了通过构造控制任务作为对比,来检验表征模型是否真正编码了语言结构的可能性。通过针对英语词性标注和依存关系预测的控制任务,发现流行的探针在 ELMo 表示上不具有足够的选择性。此外,第二层的探针相比第一层更具有选择性,这引发了关于哪一层更好地表示词性的问题。
Sep, 2019
提出 14 个探测任务,以研究 40 多种编码器架构和语言特征组合所学习的表示,发现神经关系抽取的性能受编码器架构和语言特征的影响,上下文化单词表示可以提高性能,而实体掩蔽则会降低与实体类型相关的探测任务的性能。
Transformer-based 神经语言模型在自然语言处理任务中取得了最先进的性能,但一个开放问题是这些模型在处理自然语言时在词序 / 句法、词共现 / 主题相关信息中所依赖的程度。本文通过研究基于 Transformer 模型(BERT 和 RoBERTa)在英文一系列探测任务中的表现,从简单词汇任务如句子长度预测到复杂语义任务如成语标记识别,探讨了这个问题,以此加入对这一争论的贡献,并提出了一种新的探测方法 —— 主题感知探测。初步结果显示,Transformer 模型在其中间层既编码了主题信息又编码了非主题信息,但理解习惯用法的能力主要基于它们的识别和编码主题能力。此外,对这些模型在其他标准探测任务上的表现的分析表明,对主题信息相对不敏感的任务也是对这些模型相对困难的任务。
Mar, 2024
通过对语言模型进行边缘探测的方法,研究发现,即使是对语言模型进行针对性微调,在边缘探测结果中对于语言的编码并没有显著的变化,推测是因为边缘探测本身容易受到数据集的偏见影响,进行数据偏见校正后可以得到更好的结果。
Sep, 2021
本文介绍了 10 种用于捕捉句子简单语言特征的探针任务,使用这些任务来研究三个不同编码器训练的嵌入,并揭示了编码器和训练方法的有趣特性。
May, 2018