面向资源匮乏语言的跨语言任务特定表示学习用于文本分类
提出了一种新方法,叫做使用孪生网络分类表情符号(CESNA),该方法使用孪生网络,通过相似度量基于表情符号来学习贫资源语言(如印地语和特卢古语)的表情符号表示,与资源丰富的语言一起训练并使其进入相同的表情符号空间。实验表明,CESNA 的预测效果优于基于分布语义、语义规则、词典列表和深度神经网络表示的最先进的表情符号预测方法。
Apr, 2018
本文旨在研究对于资源贫乏的语言的快速语言注释工具的发展,我们采用递归神经网络模型实验了多种跨语言注释映射方法。我们提出了一种真正的多语言标记器方法,并通过使用平行语料库证实了其有效性和通用性。
Sep, 2016
本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子,证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。
Jun, 2018
本文提出了一种新颖的语言无关方法,通过利用资源丰富的语言与资源贫乏的语言的相似性来改善后者的机器翻译,以达到减少训练数据的目的,并且评估结果表明,在少量并行语料库的情况下,改进了印尼语到英语和西班牙语到英语的翻译质量。
Jan, 2014
本研究利用多种多语种 XLM-R 模型和多样数据集,针对 AfriSenti-SemEval 2023 共享任务 12 的非洲语言情感分析模型进行了研究,最终在 Subtask B, Track 16: 多语言中获得了第三名的好成绩,但在某些语言表现不佳,表明需要建立更全面的数据集和模型来推进低资源非洲语言的情感分析研究。
May, 2023
本研究采用词、字符和 Unicode 字节嵌入比较 bi-LSTM 和传统的 POS 标注器,在 22 种语言中取得了最优性能,并表明 bi-LSTM 对于训练数据大小和标签污染的敏感度被过高估计。
Apr, 2016
跨语言句子嵌入领域最近取得了很大的进展,但是由于平行语料的稀缺性,对于低资源语言的研究相对滞后。本文表明当前模型中低资源语言的跨语言词表示与高资源语言的对齐程度明显不足。为了解决这个问题,我们引入了一种新的框架,通过使用现成的词对齐模型,显式地对英语和八种低资源语言之间的单词进行对齐。该框架包含三个主要的训练目标:对齐的单词预测、单词翻译排序,以及广泛使用的翻译排序。我们通过在双语检索任务上进行实验证明了我们的方法,该方法在低资源语言的句子嵌入上取得了显著的改进。此外,所提出模型在高资源语言上更广泛任务的竞争性表现凸显了其实用性。
Apr, 2024
本文提出了一种使用深度双语查询 - 文档表示来提高低资源跨语言文档检索性能的方法,并通过包括查询似然得分等额外特征,有效学习使用少量相关性标签为低资源语言对重新排序检索到的文档的模型。实验结果表明,本模型在 MATERIAL 数据集上优于竞争的基于翻译的对英斯瓦希里语、英语 - 塔加洛语和英语 - 索马里语跨语言信息检索任务的基线模型。
Jun, 2019
本研究提出了一种新颖的基于跨语言词向量的神经网络模型,通过高覆盖的双语词典训练,利用跨语言模型转移的方法,针对低资源语言的注释预测问题提出了解决方案,并通过多种主动学习启发式方法,提升了该方法的性能。
May, 2017
提出了一种适用于低资源语言的模型来训练形态标记器,该模型使用 Wesabie 模型进行打标, 通过在语料库中引入 POS 词性标注的元信息,将标记信息从富资源语言映射到贫资源语言,实现了跨语言知识的迁移,可以提高句法分析的效果。
Jun, 2016