电商页面多语言神经标题生成
通过神经机器翻译和神经图像描述相结合的方法,在多语言图像描述任务中使用序列生成模型作为研究方法,我们发现相较于只针对单个语言的模型,使用多语言训练的模型在英语和德语对齐的 IAPR-TC12 数据集上的 BLEU4 和 Meteor 分数显著且实质性地提高了。
Oct, 2015
该研究介绍了一项机器翻译任务,其输出面向不同水平的目标语言熟练度的受众。他们收集了高质量的新闻文章数据集,提出了一种跨语言文章段落对齐方法,训练出多任务序列到序列模型,实现将西班牙语翻译成英语并针对英语简化阅读难度,结果显示这些多任务模型优于传统的翻译和简化文本管线式方法。
Nov, 2019
本文提出了一种基于多任务学习方法,利用源端的单语言语言资源来解决神经机器翻译中由于缺少平行文本造成模型质量差的问题,并采用语义分析、句法分析和命名实体识别等辅助任务以将语义和 / 或句法知识注入到翻译模型中,实现了在英法、英波斯和英越三种翻译任务上的有效性验证。
May, 2018
本文研究了多语言文本到图像生成 (mTTI) 和神经机器翻译 (NMT) 在 mTTI 系统中的潜在作用,提出了 Ensemble Adapter 方案,通过实证研究多语言文本知识的加权和整合,以此来改善 mTTI 系统的性能,并在三个标准 mTTI 数据集上进行了评估。
May, 2023
本研究将显式神经间语纳入多语言编码 - 解码神经机器翻译(NMT)体系结构中,证明该模型通过直接零 - shot 翻译(不使用中转翻译)并使用源语句嵌入来创建英语 Yelp 评论分类器,该分类器能够通过神经间语协调法也对法语和德语评论进行分类,并且即使我们使用的参数数量比成对的 NMT 模型集合少,但我们的方法对于 WMT15 中的每个语言对产生了相当的 BLEU 得分。
Apr, 2018
本文探讨如何使用 Wikidata 中的结构化数据来生成在 Wikipedia 贫穷语言中的开放领域概要。 为此,作者提出了一种神经网络结构,该结构配备有复制操作,可以学习从 Wikidata 三元组中生成单个句子和可理解的文本摘要。作者在阿拉伯语和世界语这两种不同特性的语言上对所提出的方法进行了评估,并证明了它的有效性。
Mar, 2018
本研究提出了一种基于注意力机制的神经机器翻译(NMT)模型,并允许它在训练后访问整个平行句子对训练集。该模型由两个阶段组成:检索阶段和翻译阶段,实现了在源句子和一组检索的平行句子对之间的平滑翻译。在三种语言(En-Fr,En-De 和 En-Es)上的实证评估表明,该方法显著优于基准方法,并且当检索到更相关的平行句子对时,改进效果更为显著。
May, 2017
本研究针对缺乏百科全书文本贡献者的问题,提出了一种基于多语言参考文章的跨语言多文档摘要生成任务,同时建立了一个基准数据集,并提出了一种基于神经网络的有监督和无监督摘要生成系统,实验表明多领域的训练要优于多语言的设置。
Mar, 2023
本文提出了一种有效的方法来偏置序列到序列神经机器翻译模型(NMT)的注意机制,使其趋向于研究过的词对齐模型。我们展示了我们的新型引导对齐训练方法如何在真实生活的电商文本翻译中提高了翻译质量,克服了许多未知单词和大型类型 / 令牌比。我们还表明,与输入文本相关的元数据(例如主题或类别信息)作为网络解码器部分的附加信号可显着提高翻译质量。有了这两个新功能,NMT 系统在一个产品标题集上的 BLEU 分数从 18.6 提高到 21.3%。通过将通用领域 NMT 系统进行领域适应也可获得更大的机器翻译质量提升。这个开发的 NMT 系统在 IWSLT 语音翻译任务中也表现良好,其中四个变体系统的集合比基线的基于短语的系统的 BLEU 分数提高了 2.1%。
Jul, 2016