BERT & Family 吃词沙拉: 文本理解实验
本文探讨了BERT对句法层次结构、位置信息以及自注意力向量的编码,并发现BERT在较低的层次上良好地编码了位置信息,在较高的层次上则更倾向于编码层次结构,这表明BERT的表示法确实模拟了语言的一些层次结构,并且对于处理反身代词的普遍敏感性没有人类大脑那么强。
Jun, 2019
本文介绍了一种从人类语言实验中提取的一系列诊断方法,旨在检验语言模型用于生成上下文预测的信息。将这些诊断方法应用于 BERT 模型的案例研究中,发现其可以区分涉及共享类别或角色逆转的好坏完成情况,但对具有挑战性的推理和基于角色的事件预测存在困难,并且特别是对否定性上下文影响的敏感性不足。
Jul, 2019
本文探讨了预训练模型在文本数据上的可迁移性是否能够转化为一般的 token 序列分类应用。我们发现,即使在非文本数据上,也可以快速收敛,表现优异。这些训练好的模型与非文本模型的表示有相似之处。
Mar, 2021
通过对BERT模型中的单个神经元激活的分析,我们揭示了一种“解释能力幻觉”,揭示了BERT的嵌入空间的几何特性和文本语料库表示只代表英语句子的狭窄切片的事实,我们提供了模型学习概念的分类,讨论了解释研究的方法论含义,特别是在多个数据集上测试假设的重要性。
Apr, 2021
这篇文章探讨了BERT模型如何从它的参数化内存中获取关系知识,并使用知识库补全任务在BERT的每一层中进行了测试。作者发现,中间层对于BERT模型中的总知识量贡献了很大的部分,同时发现fine-tune时,与训练数据和训练目标有关。而容量和事实密度是学习事实的关键。
Jun, 2021
通过引入 MultiBERTs 和 Multi-Bootstrap 方法,研究者能够更准确地推出关于预训练模型的结论,这在性别偏见等问题的案例研究中显得尤为重要。
Jun, 2021
本文调查了针对BERT的四种基于词汇替换的攻击方法,结合人类评估和概率分析,发现96%至99%的攻击并不能维护语义,其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案,以防止许多对抗性攻击。最终,通过对词汇更换的约束条件设定更合理的阈值,作者得出结论:BERT比攻击研究所说的要更加健壮。
Sep, 2021
通过比较BERT模型在跨语言子句检测任务中的性能展示,它对于在不同语言中学习句法抽象的能力和限制,同时显示出该任务的简单部分容易获得成功,但更难的部分需要更多时间。此外,该任务的性能主要受词序效应的支配,与SVO/VSO/SOV类别相似。
May, 2022
本文通过比较以a/an,the和零三种形式设置的冠词预测任务中Bert模型和人类的表现,发现Bert模型对于检测零冠词的性能远远优于人类,并且在高一致性的情况下更容易与注释者达成一致,这表明BERT不是在记忆冠词使用情况,而是捕捉到了类似于人类的感性认知水平的高度概括性冠词使用规律。
Jun, 2022