我的表征是否捕获了 X?探究可能性
该研究通过一种系统探究框架,从迁移性的角度探索了深度学习模型在抽象能力方面的特性,针对多个控制实验,提供了证明两种预训练语言模型(T5 和 GPT2)拥有抽象能力的强有力证据,还进一步分析了整个训练阶段包括 “暂存 - 抽象” 的两个过程阶段、抽象思维以及其对概念变异和训练方式缩放的反应,并突出了泛化预训练对抽象能力的关键性。
Feb, 2023
本研究探索寻找一种数量化方法,以估算合理的探测数据集大小,旨在构建一个系统性的诊断神经自然语言处理 (NLP) 模型探测数据集的框架。通过几个案例研究,我们验证了我们的估算具有足够的统计功效。
Feb, 2022
通过监测神经网络模型每个层的特征并测量其对分类的适用性,使用线性分类器(即 “探针”)完全独立于模型本身进行训练,这有助于更好地理解中间层的作用和动态,并可用于诊断潜在问题。将此技术应用于 Inception v3 和 Resnet-50 等流行模型,实验证明,特征的线性可分性沿模型深度单调增加。
Oct, 2016
本文探讨了神经模型如何学习语言任务以及词嵌入对模型表现的影响,证明模型可以学习到语言属性,而预训练的词嵌入对于编码这些属性起着重要作用。
May, 2020
本研究提出了 Amnesic Probing 方法,用以替代传统的伪推式分析方法,并通过对 BERT 进行一系列分析,发现伪推性能并不与任务重要性相关,并呼吁加强对从伪推结果中得出行为或因果结论的主张的审查。
Jun, 2020
神经网络模型在各种复杂任务上取得了高性能,但它们所实现的算法往往难以解释。我们提出了一种新的分析技术 —— 电路探测,通过自动发现计算假定的中间变量的低层电路,实现了对模型参数级别的有针对性的切割,从而开展因果分析。我们对简单算术任务上的模型应用了这种方法,证明了它在(1)解密模型所学习的算法,(2)揭示模型内部结构以及(3)追踪电路在训练过程中的发展方面的有效性。我们将电路探测与其他方法在这三个实验中进行比较,发现它在效果上与现有的分析方法相当甚至更加有效。最后,我们在一个真实的应用案例中演示了电路探测的应用,发现了在 GPT2-Small 和 Medium 模型中负责主谓一致和反身指代的电路。
Nov, 2023
本文提出了一种名为 Pro$^2$ 的轻量、样本高效的方法,通过将预训练嵌入映射到正交方向来学习多样的预测特征,并在小目标数据集上适应目标分布。在多个数据集上的试验表明,与标准线性探测等先前方法相比,Pro$^2$ 提高了 5-15% 的性能。
Feb, 2023
大型语言模型在医学领域中的应用是分析和调查临床试验的任务,本研究使用记忆探测方法研究在临床试验上训练的 Sci-five 模型,通过训练任务特定的探测器,调整模型以提高准确性,并发现探测器的大小对调整流程产生影响。
Feb, 2024