通过自我知识蒸馏促进少资源场景下的通用跨语言问答
本论文提出了一种基于广义跨语言转移的框架,可以增强模型理解不同语言的能力,通过不同语言组成多语言知识三元组,并通过链接预测技术设计一种知识注入策略,从而深入挖掘丰富的语义知识;实验结果表明,该方法可以大幅提高性能。
Apr, 2023
本文提出了一种名为 Cross-Lingual Knowledge Distillation (CLKD) 的方法,使用强大的英文 Answer Sentence Selection(AS2)模型作为老师进行跨语言知识蒸馏,可用于训练对于标注数据有限的低资源语言的 AS2 模型。作者还介绍了两个多语言数据集进行了实证研究,通过多次实验验证,CLKD 方法在不用标注数据的情况下,可与使用相同数量标注数据的监督微调方法相媲美,具有潜力为低资源语言提供更强大的 AS2 模型,同时这两个多语言数据集能够在 AS2 领域进行更广泛的研究。
May, 2023
本研究探讨了多语言视觉语言模型在跨语言环境中表现欠佳的情况,并提出了三种策略以提高它们在零 - shot 跨语言视觉问答任务中的性能。实验证明,该 Fine-tuning 策略取得了一致的效果。
Sep, 2022
本文提出了 xGQA,一个用于跨语言视觉问答任务的新的多语言评估基准,并使用适配器方法将多模型变换器模型扩展为多语言模型,结果表明简单的跨语言模型转移会导致多语言多模态失配,需要更复杂的方法来进行跨语言视觉和多语言语言建模
Sep, 2021
使用单一生成模型在大规模上生成多语言问题和答案对,通过多任务训练的生成模型来改进跨语言 QA 模型的零 - shot 表现,并在各种语言的 XQuAD 数据集上实现了较大的性能提升。
Oct, 2020
本文提出了一种任务不可知的知识蒸馏框架 ——XtremeDistilTransformers,利用任务特定方法学习出一个通用模型,可以应用于任意语言和任务,并研究了蒸馏过程中多个源任务、扩充资源和模型架构的可迁移性。在多项任务中验证了该模型的性能,并发布了三个蒸馏的任务不可知检查点,其中最小的检查点包含 1300 万个参数,实现了多项任务的 SOTA 表现。
Jun, 2021
本论文提出了一种多阶段蒸馏框架来构建小型但高性能的跨语言模型,同时结合对比学习、瓶颈和参数循环策略,解决了模型压缩过程中性能损失严重的问题,并证明该方法可以将 XLM-R 和 MiniLM 的大小压缩了 50%以上,而性能仅降低了约 1%。
Sep, 2022
本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。
Feb, 2023
本文探索了提高多语言问题回答的交叉语言转移性能的策略,包括使用机器翻译生成的数据来增强原始英语训练数据,以及提出两种新颖的策略:语言对抗性训练和语言仲裁框架,这些策略显著提高了零资源的交叉语言转移性能,并导致 LM 嵌入不那么语言特定的结果。经验证明,这些模型在最近推出的 multilingual MLQA 和 TyDiQA 数据集上优于以前的零 - shot 基线。
Dec, 2020