该研究提出了一种神经嵌入模型,利用双语词典将文字定义映射到双语目标词汇,探索不同的句子编码技术以及采用多任务学习和联合学习等关键学习策略来增强学习过程,实验结果表明,该模型在跨语言反向字典检索任务和双语释义识别问题上表现优异,并有效地解决了双语释义识别问题。
Aug, 2018
本文通过实验证明使用高容量多语言语言模型应用于零样本(基于模型的跨语言转移)情况下能够比基于数据转移更好地执行跨语言序列标注,这可能是由于语言使用的重要差异所致。
Oct, 2022
本文提出一种无监督的跨语言嵌入转换方法,其中使用 Embedding-Push、Attention-Pull 和 Robust targets 来处理语言嵌入之间的聚类差异,以提高跨语言转换的可靠性。 实验结果表明,该方法在零 - shot 跨语言文本分类任务上取得显着优于以往的工作,可以获得更好的多语言对齐。
本研究提出了一种基于双语词典的数据增强技术,使得机器翻译模型能够扩展词汇表而不会影响低资源环境下的合成句子的质量,我们的方法在性能上表现出可观的改进。
Apr, 2020
基于 Byte Pair Encoding 的转移学习方法对低资源语言进行神经翻译的改进,提高了翻译的质量。
Aug, 2017
本文讨论了在任务导向的对话系统中如何识别用户意图和相应的插槽,并通过多种跨语言转移方法进行数据集训练比较
Oct, 2018
使用高覆盖率的字典和 EM 式训练算法,该方法解决了以前的跨语言词嵌入方法中的资源需求大、难以融合单语言数据或难以处理多义词等问题,在双语词汇表归纳任务中实现了表现卓越的结果,并且在单语词汇相似度和跨语言文档分类任务上也取得了有竞争力的结果。
Jun, 2016
通过使用预训练模型,我们提出了一种零样本跨语言转移的新方法,它能够在低资源语言上实现任务感知的双语信息对齐,并利用未标记数据进行自我训练,从而实现多种任务上的最新技术提升,无需并行语料库或翻译模型。
Oct, 2023
利用生成对抗网络和无监督多语言嵌入,结合多源语言训练数据的多语言转移学习方法,在多语言文本分类和序列标记任务中实现 target 语言的显著性能提升。
本文提出一种方案,使用几个样本训练的神经网络和多语言 Transformer 基础模型之间协同作用的跨语言转移,以改进跨语言学习的性能,实验结果表明,我们的方法能够显著提高跨低资源语言与高资源语言之间的转移学习性能,进一步的结果证明了 meta-learning 的能力。
Jul, 2022