本研究提出了一种基于弱监督(仅有相同单词列表)的方法,通过固定目标语言的嵌入并学习与之对齐的源语言的嵌入来解决不同语言的单词嵌入相似性不一致的问题,并在双语词表归纳和 XNLI 任务上取得了较好的结果,相比于传统的映射方法表现更好。
Dec, 2020
提出一种 SMALR 模型,它支持多种语言,其许多单词具有固定的语言不可知表示,同时保留少量的特定语言特征,并且它使用掩模交叉语言建模损失来对齐其他语言的上下文特征,具有较好的跨语言一致性。验证了该模型在多语言图像 - 句子检索任务上的有效性。
Apr, 2020
此研究探讨了子词切分在跨语言迁移中的作用,发现子词规范化提高了多语言建模的协同效应,而 BPE 在跨语言微调中更有效地促进了迁移,在子词建模方面的决策对于优化多语言建模的好处至关重要。
Mar, 2024
探讨分词和子词池化对两个大规模多语言模型在词汇计量、词性标注和命名实体识别等三个任务中的影响,并提出使用小型 LSTM 模型对子词进行池化处理的最佳方案。
Feb, 2021
本文比较现有多语言模型词汇表生成方法,提出了一种新的多语言词汇表生成方法。实验证明,该方法能够提高多个语言上的推理性能,同时在不增加模型大小或数据的情况下,将语言识别率降低了 8 倍。
Oct, 2020
介绍了一种利用 subword segmentation 的噪声来提高神经机器翻译鲁棒性的正则化方法,主要应用于低资源领域。
Apr, 2018
该研究探讨了是否可以利用不同语言之间的字符级相似性实现跨语言文本分类,并提出了一个利用交叉语言字符级子词相似性的框架 (CACO),结合字符嵌入器和基于词的分类器。实验结果表明利用字符级别的知识转移比使用基于词的转移在相关语言间更有效。
Dec, 2018
本文提出了一种无监督的方法来学习一对语言的双语词典,并利用单语向量空间中的局部和全局结构将它们对齐,从而使相似的单词映射到一起,实验表明,使用提出的无监督方法学习的双语对应词性能与使用监督学习的双语对应词从种子词典中学习的相当。
Dec, 2017
本文提出了多语言语言模型与深度语义对准(MLMA),用于产生跨语言标注的语言无关表示,方法不需要平行数据或一个词一个词匹配,只需要单语语料库,并利用深度上下文表示。实验结果表明,本方法在欧洲语言以及英语和汉语等远距离语言对上实现了新的最新 NER 和 POS 性能。
Oct, 2019
本文研究了跨语言模型中影响句子级别对齐的语言和非语言因素,并使用 BERT 和 BiLSTM 模型和《圣经》作为语料库进行了比较分析,结果表明,词序一致性和形态复杂度一致性是跨语言性的两个最强的语言预测因素。
Sep, 2021