语言模型是否学习了位置 - 角色的映射关系?
本研究针对 6 种不同语言和 5 种不同词汇任务,对单语和多语言源 LM、无上下文编码和有上下文编码、特殊标记的包含和分层平均等不同词汇知识提取策略的影响进行了系统的实证分析,并验证了较低变压器层携带更多类型级词汇知识的主张。
Oct, 2020
通过探究自然语言处理模型中英语 BERT 和 GPT-2 语法角色的表示,发现其后期层次的单词聚类受到词序关系的影响,特别是在某些非典型语境下,词序知识对于正确的分类具有重要的作用,这突出了模型在非常规但至关重要的时刻如何使用上下文。
Mar, 2022
本研究介绍了一个广泛的多语言探测词形信息数据集,利用预训练变形金刚模型(mBERT 和 XLM-RoBERTa),并应用两种方法确定输入中区别信息的位置以实现强大的性能。其中最显著的发现是前缀上下文持有比后缀上下文更多相关预测信息。
Jun, 2023
基于预训练语言模型(PLMs)和文档内句子位置信息知识的改进模型,自动预测法律意见书的修辞角色。通过在 LegalEval@SemEval2023 比赛注释的语料库上验证,我们的方法需要更少的参数,计算成本也更低,同时实现了出色的性能。此外,我们展示了在基于 BERT 的局部上下文的分层模型中增加更多注意力并结合句子位置信息会增强结果。
Oct, 2023
这篇文章探讨了 BERT 模型如何从它的参数化内存中获取关系知识,并使用知识库补全任务在 BERT 的每一层中进行了测试。作者发现,中间层对于 BERT 模型中的总知识量贡献了很大的部分,同时发现 fine-tune 时,与训练数据和训练目标有关。而容量和事实密度是学习事实的关键。
Jun, 2021
对多语言 BERT(mBERT)进行 fine-tuning,研究其语言特定知识和语言无关知识之间的关系。实验结果表明,fine-tuning 导致模型的表征能力重新组织,增强了语言无关表征,牺牲了语言特定表征。
Sep, 2021
通过句子级探测、诊断案例和掩蔽预测任务的评估,我们针对相对子句测试了三种模型(BERT,RoBERTa 和 ALBERT)的语法和语义知识,在自然数据集上,探测表明三种模型确实捕获了关于语法正确性的语言知识,但对包括语义知识在内的细粒度语言知识的诊断案例和掩蔽预测任务的评估显示明显的模型特定弱点,强烈影响模型性能。因此,我们的结果突出了通过模型比较进行评估任务和建立模型性能声明及其捕获的语言知识的重要性,超越纯粹的探测评估。
Nov, 2020
本文探讨了 BERT 对句法层次结构、位置信息以及自注意力向量的编码,并发现 BERT 在较低的层次上良好地编码了位置信息,在较高的层次上则更倾向于编码层次结构,这表明 BERT 的表示法确实模拟了语言的一些层次结构,并且对于处理反身代词的普遍敏感性没有人类大脑那么强。
Jun, 2019