基于知识的模板机器翻译在低资源环境中的应用
本文研究证明,通过在神经网络中嵌入知识图谱可以提高实体和专有名词的翻译效果,并提出了两种方法以增强神经模型的语义特征提取和对数据稀缺性和词汇表外的单词的挑战进行了探讨,结果表明,KG-NMT 模型取得了很好的效果。
Feb, 2019
本文旨在通过引入字符级的 Seqence-to-Sequence 模型来提高神经机器翻译(NMT)系统的翻译效果和识别实体名词的能力,并在双语训练中借助名称实体翻译模型来提高高质量的实体名词对齐,从而使中英翻译任务的 BLEU 分数比基础 NMT 系统提高了 2.9 个百分点。
Jul, 2016
本研究表明,多任务学习是将语言学标注引入端到端神经 attention 模型的一个成功和简单的方法,可以对翻译质量产生改善,并且也可以提高词性标注器的性能。
Aug, 2017
本研究提出了在神经 SPARQL 查询生成中整合一个复制机制,以解决目前方案无法处理模型未见过的知识资源、类和属性的问题,并使用两种 Seq2Seq 体系结构(CNN 和 Transformers)进行说明。该层使模型直接从问题中复制 KB 元素,而不是生成它们,并在包括引用未知 KB 元素的数据集上评估我们的方法,显示所有数据集上性能都有了显著的提高。
Nov, 2022
本文对低资源神经机器翻译进行了调查,并根据所使用的辅助数据将相关作品分为三类:利用源语言和 / 或目标语言的单语数据,利用来自辅助语言的数据以及利用多模态数据。该调查有助于研究人员更好地理解该领域,鼓励他们设计更好的算法,也有助于帮助行业从业者选择适合其应用程序的算法。
Jul, 2021
本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序,在低资源语言中使用神经机器翻译 (NMT) 模型,产生仅使用 7 万个训练数据令人满意的翻译结果。
Aug, 2017
在低资源环境中,提出了一种用于模拟复杂形态的框架解决方案,该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器,提高了机器翻译性能,并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术,提高了在低资源环境中的翻译性能,最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能,希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。
Apr, 2024
本文提出了一种元学习方法,通过细调源语言模型,结合相似示例中所传达的结构和语义信息来增强目标语言的命名实体识别。在五种目标语言上的实验表明,该方法显著优于现有的最先进方法。
Nov, 2019
在低资源机器翻译中,通过 Transformer 网络结构的结构性快捷方式,如从源语言复制子词到目标语言,可以为近缘语言对之间的机器翻译提供微弱的改进,但并不展现与远缘语言对或低资源范围下相似语言对之间更强的改进,并且模型对于共享子词的机制使用并不如预期,这突显了低资源机器翻译领域面临的诸多挑战,如现代分词策略、嘈杂的真实环境和语言复杂性,并呼吁对 Transformer 模型进行更好的语言学动机改进的审视及对该领域上述问题的关注。
Mar, 2024
本文提出一种简单但有效的方法,即将目标语句重新排序以匹配源语序,并将其作为另外一种训练时的监督信号,从而在模拟低资源日语 - 英语和真实低资源维吾尔 - 英语语种中获得显着改进。
Aug, 2019