探寻嵌入的纹理: 探讨嵌入的构造

Oct, 2022

探寻嵌入的纹理: 探讨嵌入的构造

Probing with Noise: Unpicking the Warp and Weft of Embeddings

Filip Klubička, John D. Kelleher

TL;DR通过引入噪音亚百特信息编码的向量空间，使用探测框架扩展方法，研究了GloVe和BERT嵌入中向量范数如何编码不同种类的信息，发现GloVe在向量范数中存储了句法和句子长度信息，而BERT则将其用于编码上下文不连贯信息。

Abstract

Improving our understanding of how information is encoded in vector space can yield valuable interpretability insights. Alongside vector dimensions, we argue that it is possible for the vector norm to also carry linguis

发现论文，激发创造

信息论探针用于语言结构探索

本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度，即探针，发现在评估中应选择表现最好的模型，即使它是更复杂的模型，以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。

Apr, 2020

探究Probing方法范式：精度是否意味着任务相关性？

本文探讨了神经模型如何学习语言任务以及词嵌入对模型表现的影响，证明模型可以学习到语言属性，而预训练的词嵌入对于编码这些属性起着重要作用。

May, 2020

窥探邻居：针对上下文嵌入的细粒度探测，用于获取周围词语的信息

通过引入一系列探测任务，对比测试了BERT、ELMo和GPT等语境编码器对于上下文信息的编码能力，发现每种信息类型确实都是以上下文信息的形式编码的，但是不同的编码器在分配特征到哪些标记上、特征分配的细度、特征编码的鲁棒性等方面存在差异。

May, 2020

遗忘探针: 用遗忘反事实解释行为

本研究提出了Amnesic Probing方法，用以替代传统的伪推式分析方法，并通过对BERT进行一系列分析，发现伪推性能并不与任务重要性相关，并呼吁加强对从伪推结果中得出行为或因果结论的主张的审查。

Jun, 2020

探究低资源语言句子嵌入: 有关探究任务评估的结构设计选项

通过研究嵌入式语句在较少语言资源环境下的探测技术，揭示了探测数据集规模和分类器等结构设计选择对探测结果影响很大，同时，强调英语探测结果无法转移至其他语言，未来应进行更公平和全面的多语言句子级探测任务评估。

Jun, 2020

基于维度选择的内在探测

本文讨论了自然语言处理系统中之前探测语言结构方法的缺陷，并提出了基于多元高斯探针的内在探测框架，以便于检测词向量的语言信息。通过36种语言的实验证明，多数形态语法特征由少数神经元可靠编码，而fastText相较于BERT更加集中其语言结构。

Oct, 2020

不同模型在语言知识定位方面并非都一样：对BERToid表示的逐层探索

本研究探究了不同的预训练模型（BERT、ELECTRA 和 XLNet）对语言信息编码的差异性，并表明基于深度的评估策略往往存在误导性，我们使用了一种信息论探究方法以获取更为可靠和有用的结论。

Sep, 2021

探究作为归纳偏好的定量化

该研究旨在通过贝叶斯框架度量文本中的归纳偏差量，并通过对Contextual embeddings的探究，比较了fastText和BERT在不同任务上的性能表现差异。

Oct, 2021

一种隐变量模型用于内部探测

本文提出了一种新的潜变量公式用于构建内在探测器以确定语言属性所在位置，并提出一个可行的变分逼近方法，用于求解对数似然函数计算，结果表明这个模型能够获得更好的内部探测精度，并且在跨语言的形态句法方面表现良好。

Jan, 2022

表示形式作为语言：一个信息论解释的框架

通过一种新颖的可解释性方法，该论文使用信息论度量量化了神经模型对输入的表示的结构化程度，从而预测模型的泛化能力，并发现模型的代表性和噪声强度有关。此外，研究还研究了模型大小对表示空间结构的影响。

Jun, 2024