- 无训练即获益:用于无需训练的语言适配器增强的语言算术
在多语言预训练语言模型中,模块化深度学习是解决多语言性的技术,而语言算术是一种训练后的后处理方法,能够显著提升在零样本和低资源应用中的多语言性能。
- COLING评估用于上下文词形还原的最短编辑脚本方法
通过研究多种语言的上下文词形还原系统,本文发现计算大小写和编辑操作可以改善该系统的性能,尤其对于具有高派生形态的语言。值得注意的是,多语言预训练语言模型在每个评估环节中始终优于特定语言的模型。
- $C^3$: 用于推理高效的跨语言自然语言理解的置信度校准模型级联
本研究引入了一种置信度校准的模型级联方法($C^3$),通过在级联推断之前进行校准,提高了级联的准确性,实验证明 $C^3$ 明显优于所有现有的基线模型。
- 多语言问答模型的校准理解
这篇论文研究了多语言预训练语言模型在问答任务中的校准性质,包括从不同维度研究了其在分布内、分布外和跨语言迁移设置下的校准情况,以及改进校准性的策略和技术。通过实验证明了自动翻译数据增强是提高模型校准性的一种高效技术,并进行了模型大小和多语言 - 从分类到生成:跨语言检索增强 ICL 的见解
通过利用跨语种检索增强的上下文学习(CREA-ICL)方法,从高资源语言中提取语义相似的提示,以改善多语言预训练语言模型(MPLMs)在各种任务中的零样本性能,本文研究了大型语言模型在低资源语言中上下文学习(ICL)性能的限制和挑战,并对检 - ACL弃用预训练:将视觉 - 语言模型应用于未知语言
本文提出一种简单而有效的方法,利用多语言预训练语言模型(MPLM)和跨语言上下文化词嵌入对 VLP 进行了调整和适应,以在未见过的语言上具有出色的表现,而无需大量平行语料库。
- 跨语言模型预训练的软语言聚类技术
本文提出了 XLM-P 模型,结合上下文获取灵活的编码,实现语言无关以及语言特定知识的轻量级建模,且可以与其他多语言预训练方法轻松集成,提供用于文本分类、序列标记、问答和句子检索的性能改进,对于低资源语言和跨语言传输具有实际优势。
- AMTSS: 自适应多教师单学生知识蒸馏框架用于多语言语言推断
提出 AMTSS,一种自适应的多教师单学生蒸馏框架,它允许从多个教师向单个学生蒸馏知识,对于开发和机器成本的大幅降低做出了贡献。在公共 XNLI 数据集和电子商务情景下的实际工业数据集 AliExpress(AE)上获得了有竞争力的结果。
- 跨语言关系抽取的 Prompt 学习
本研究提出了一种基于 Prompt-Tuning 的 XRE 算法,使用多语言 Pre-trained 语言模型,通过硬性提示、软性提示、混合提示等多个提示模板来改进 XRE 的效果,实验表明我们的算法在多语言环境下有显著的效果并且在新数据 - ACL基于阅读理解的跨语言知识库问答
该研究对多语言信息处理领域中的跨语言问答问题进行了研究:提出了一种基于阅读理解范式的知识库子图到问题的转换方法,利用汽车预训练语言模型和跨语言阅读理解技术进行跨语言阅读理解,基于现有的高质量跨语言阅读理解数据集进一步优化模型,为跨语言问答领 - ICLR建模序列句子关系以提高跨语言稠密检索
通过建立序列句子关系,提出一种多语言 PLM 模型,称为 masked sentence model (MSM),并通过四项跨语言检索任务的全面实验验证其在跨语言检索方面的有效性和更强的能力。
- 通过最优传输压缩提升低资源语言的跨语言信息检索
本文提出了 OPTICAL:优化传输蒸馏用于低资源跨语种信息检索,该方法利用优化传输问题将知识从双语数据中分离出来,只需要少量数据就可以在低资源语种上显著提高效果。
- EMNLPAfroLM:一种基于自主学习的多语言预训练语言模型,适用于 23 种非洲语言
本文提出了 AfroLM,这是一个利用自主主动学习(active learning)算法,仅仅用了比现有基准数据集小 14 倍的数据集从头开始预训练的跨 23 种非洲语言的多语言语言模型。与现有的大多数跨语言预训练模型相比,在各种 NLP - ACLFreeTransfer-X:来自现成模型的安全无标签跨语言转移
通过提出一个联合利用多语言预训练语言模型以及无标注数据进行的知识转移的新型跨语言转移问题 FreeTransfer-X,并在强神经机器翻译方法上作出显著改进,该方法不仅可降低标注成本,保护隐私标签,还能够轻松部署且兼容不同的网络结构。
- 多语言模型中的语言中立子网络发现
本文使用抽象的彩票票假设,发现不同语言的子网络是拓扑相似的(即语言中性),这使它们成为具有有限性能下降的跨语言转移的有效初始化。
- ACL探究多语言预训练模型的结构剪枝:设置、算法和效率
本研究评估了基于结构化剪枝在多语言预训练语言模型上的三个方面:设置、算法和效率,并通过在九个下游任务中的实验展示了一些反直觉现象。为了方便各个稀疏度水平上的比较,我们提出了一种简单的方法 —— 动态稀疏化,它可以让模型只需要训练一次就能适应 - ACL多语言遮蔽语言模型的跨语言能力:语言结构研究
研究了多语言预训练语言模型的跨语言能力,得出结论组成是成功的跨语言转移的关键因素。
- 多语言蒸馏和零样本感知训练的跨语言文本分类
利用教师 - 学生框架从高性能的单语言模型中转移知识,构建了一个基于 MPLMs 的多语言分支模型(MBLM),并使用零射击感知的训练策略令模型从所有分支的零射击表示中学习,我们的方法仅使用任务的监督数据,提高了 MPLMs 的监督性能和零 - COLINGCINO: 一个中文少数民族预训练语言模型
本文提出了 CINO 一种为中国少数民族语言设计的多语言预训练语言模型,该模型表现出良好的跨语言分类性能。作者构建了两个分类数据集 WCM 和 CMNews 以评估跨语言能力。
- EMNLP通过带不确定性估计的自我学习提升跨语言迁移
提出了一种基于自学习的框架,结合目标语言的未标记数据和不确定性评估方法,使用三种不同的不确定性评估方法对跨语种传递的具体情况进行了分析, 并在包括 40 种语言的两个跨语种任务中评估了该框架,其中包括命名实体识别和自然语言推理,并在 NER