May, 2022

使用多语言 BERT 进行零样本跨语言迁移中的特征聚合

TL;DR本文探讨了利用 mBERT 最后一个 transformer 层以外的信息,采用基于 attention 机制的特征聚合模块,对不同层次的信息进行融合。实验结果表明,在 XNLI、PAWS-X、NER、POS 等关键领域任务中,该方法在零 - shot Cross-lingual 下具有良好的性能提升,并且探讨了 mBERT 的可解释性。