多语言 BERT 模型的词形句法探测
本研究提出了 Morph Call,它是针对四种不同形态的印欧语言(英语,法语,德语和俄语)的 46 个探测任务套件,使用诱导句子扰动的检测方法,在神经元,层和表示水平上分析了四个多语言 transformers 的形态句法内容,其中包括其不太被探究的蒸馏版本,并研究了精调 POS 标记对模型知识的影响。研究结果表明,精调可以改善和降低探测性能,并改变形态句法知识在模型中的分布。代码和数据公开,希望填补 transformers 的研究空白。
Apr, 2021
该研究介绍了在 24 种语言中引入 15 种类型级别的探究任务,测试诸如情况标记、单词长度、形态标记计数和伪词识别等特定语法特征和语言提示的分类任务,以便探索词嵌入或黑盒神经模型的多语言语言线索,发现许多探究测试具有与子任务的显着高正相关性,特别是对于形态丰富的语言。
Mar, 2019
通过无需直接监督或引入额外参数的无参探测技术,我们提出了一种分析预训练语言模型的新方法,实验表明该方法所得到的句法树和依存结构与人类设计的依赖模式相兼容或甚至更优,在情感分类任务中能显著提高分类效果。
Apr, 2020
本研究针对多语言 BERT 的序列到序列建模进行实验,证实其不需要训练就能够实现跨语言的转化,并提出一种无监督的分析方法,证明 Multilingual BERT 可以学习到一定的语言普遍规律。
May, 2020
本研究探讨了多语言 BERT (mBERT) 的分层,分析了 100 种语言的地理和亲缘关系信号,并根据 mBERT 表示计算语言距离。我们使用这些语言距离推断和评估语言树,找到它们与参考家族树的角四树距离相近;通过距离矩阵回归分析,我们发现语言距离最好由亲缘关系因素解释,最差由结构因素解释;我们还提出了一种新的测量语言时序意义稳定性(基于跨语言表示变异性)的方法,它与基于语言方法的已发布排名列表之间呈显着相关。我们的研究结果对跨语言文本表示的类型学可解释性领域做出了贡献。
Nov, 2020
通过将词汇学特征添加到 LSTM 和 BERT 模型中,我们比较了多种语言中命名实体识别、依赖解析和评论过滤任务的基线和改进模型表现,结果显示,根据所添加的特征的质量和任务的不同,这些特征对于 LSTM 的 NER 和 DP 任务表现提升效果较好,而不太适用于 CF 任务;对于 BERT,只有在高质量特征时才会对 DP 表现有所改善,而且相对于强大的多语言 BERT 模型,语言特异性 BERT 变体的改善程度较小。
Nov, 2020
本研究针对 6 种不同语言和 5 种不同词汇任务,对单语和多语言源 LM、无上下文编码和有上下文编码、特殊标记的包含和分层平均等不同词汇知识提取策略的影响进行了系统的实证分析,并验证了较低变压器层携带更多类型级词汇知识的主张。
Oct, 2020
本文提出并应用一种 GUI 辅助框架,使我们能够轻松地探寻普遍依赖数据中所有形态句法特征所出现的大量语言。我们发现,反映了过去几年自然语言处理的西方中心趋势,mBERT 模型中揭示的大多数规律对于西欧语言而言是典型的。因此,我们提出了一个工具包,以系统化解决多语种模型中存在的缺陷,为 104 种语言和 80 种形态句法特征提供可重复的实验设置。
Oct, 2022
探究了文本扰动对 Transformer-based 语言模型的影响,发现换序对模型下游任务性能影响不大,且证实模型对位置编码的使用。研究使用三种印欧语言建立九个 probing 数据集,发现句法敏感度取决于语言和预训练目标,在层数和扰动粒度上敏感度增加且模型几乎不用位置信息产生句法树。
Sep, 2021
在低资源环境中,提出了一种用于模拟复杂形态的框架解决方案,该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器,提高了机器翻译性能,并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术,提高了在低资源环境中的翻译性能,最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能,希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。
Apr, 2024