揭示 BERT 的黑暗秘密
本文通过分析 BERT 的注意力机制及其输出结果,提出了新的方法并应用于其内部结构的探究,证明 Bert 的 attention heads 明显与语言的语法和指代有关,其中某些 attention heads 可以高精度地表示动词的直接宾语、名词的限定词和介词的宾语。
Jun, 2019
通过无监督聚类,我们明确将注意力热图聚类为显著不同的模式,并进一步通过分析研究了它们的对应功能,此外,我们提出的特征可以用于解释和校准 Transformer 模型中的不同注意头。
Nov, 2020
通过使用梯度归属法分析,我们找出了自注意力头在 transformer 架构中的局部行为与全局行为之间的区别。此外,我们观察到,尽管混合上下文信息导致了注意力和归属度量之间有明显的偏差,但有些特定的模式在深度学习的所有层都是存在的。
Apr, 2020
本文提出了一种自我注意力归因方法,通过对 BERT 等模型进行广泛的研究,发现这种方法能够用于识别重要的注意力头,构建注意力树,揭示变压器内的分层交互,以及可用作敌对模式实现非定向攻击。
Apr, 2020
该论文介绍了一种结合人机交互的流程来发现重要的任务特定的注意力模式,然后注入到原始模型和较小的模型来提高模型的准确性与效率,取得了在提取式摘要和主题分割方面显著提高的结果。
Dec, 2021
本研究通过对 18 种语言进行多语言 BERT 的解码实验,以测试依存句法是否反映在注意力模式中的普适性,并归纳出单一注意力头可以以上线准确率解码全树。尝试通过对 mBERT 进行监督解析目标的微调,结果表明注意力模式可以代表语言结构。
Jan, 2021
在自然语言处理中,通过将共指信息作为辅助监督注入到目前现有的预训练模型中,能够提升模型在需要进行复杂和长距离推理的任务中的表现,从而超过目前最大的 GPT-2 模型,同时仅含有一小部分的参数。
Nov, 2019
本文研究了 BERT 的注意力机制,探究了两个问题:如何使用注意力机制减少输入长度和如何将注意力用作条件文本生成的控制机制,并发现 BERT 的早期层对文本分类任务的关注度更高,其注意力和可以用于过滤给定序列的令牌,一定程度上减少了输入长度同时保持良好的测试准确性。
Mar, 2023
通过比较两个任务特定的阅读数据集,研究表明,大规模预训练自注意力模型对于人类注意力的预测能力依赖于罕见语境的句法性质,而任务特定的微调不增加与人类阅读的相关性,并且通过输入减少实验给出了互补信息,表明低熵的注意向量更为可靠。
Apr, 2022
本研究提出了标签关注层,一种新的自注意形式,其中关注头表示标签。运行实验并在 Penn Treebank(PTB)和中文 Treebank 上展示出其在词法句法分析方面的最新成果,标签关注层在该实验中表现出了更好的性能,相比现有工作需要较少的自我注意层数。最后,我们发现标签注意头学习了语法类别之间的关系,并显示了分析错误的路径。
Nov, 2019