- 一个用例:将查询重写重新定义为统计机器翻译问题
该论文提出了一个基于单语机器翻译模型的查询重写流程,用于学习重写阿拉伯用户搜索查询,并描述了创建用户查询和网页标题之间映射的预处理步骤。
- 库尔德手语第一对平行语料库
该论文介绍了一项将库尔德语口语和库尔德聋人使用的自然语言 —— 库尔德手语(KuSL)自动转换的研究。该研究使用基于 Avatar 的技术将中等库尔德方言 Sorani 的文字转换为库尔德手语,并使用统计机器翻译引擎进行了评估,最终在 BL - 印度语言的统计机器翻译
本文介绍了使用 SMT 技术和 MOSES 工具包开发双语 SMT 模型,实现英语和十五种低资源印度语言之间的翻译,包括使用 BLEU,METEOR 和 RIBES 等标准指标对翻译质量进行评估。
- 深度学习时代的单词对齐:教程
本文探讨了在机器翻译中,句子间词语对齐的重要性以及其在传统统计机器翻译和目前神经机器翻译中的作用,并着重介绍了一种基于语料库的无监督统计词语对齐工具 GIZA++ 以及该领域的研究进展。
- 一个大规模的全文科学文章平行语料库
本文提出利用 Scielo 数据库建立了一个包含英语、葡萄牙语和西班牙语的多语种平行语料库,使用 Hunalign 算法对句子进行自动对齐,并用 Moses 对每种语言对进行了翻译,证明该语料库在科学文章中的机器翻译方面表现优异,同时还提供 - ACL历史文本规范化系统的大规模比较
本文介绍迄今最大的历史文本规范化研究,涵盖了基于规则、距离度量、基于字符的机器翻译、神经编码器 - 解码器模型等所有提出的规范化技术类别,并使用不同的数据集和评估方法进行比较,分析了训练数据数量的影响,并提供了公开的数据集和脚本。
- ACL一种有效的无监督机器翻译方法
本文针对现有无监督机器翻译存在的不足之处,通过利用子词信息、开发理论上有根据的无监督调优方法和引入联合优化程序等手段,改进了统计机器翻译系统,并将其用于初始化双 NMT 模型并进行后续微调,使无监督机器翻译的表现大幅度提升。在英德无监督机器 - EMNLP纠错与提升:生成更好的错误以提高语法错误检测
本文研究如何通过有限的人工标注数据,使用基于注意力机制的序列到序列模型及简单的后处理程序、进行人工数据合成,以提高文本纠错的准确率。实验结果表明,我们的方法可生成质量较高的人工数据集,有效地提高了基于双向 LSTM 的文本纠错方法的性能水平 - NICT 的神经和统计机器翻译系统对 WMT18 新闻翻译任务的应用
本文介绍了 NICT 参与 WMT18 新闻翻译任务的结果,通过采用统计机器翻译和神经机器翻译系统以及使用大量反向翻译单语数据,结合使用 transformer architecture,对于爱沙尼亚语对英语、芬兰语对英语等语言方向实现了 - EMNLP无监督统计机器翻译
本文提出了一种基于 SMT 的新颖方法,通过跨语言嵌入映射从单语料库中诱导短语表,再将其与 N-gram 语言模型相结合,通过无监督超参数微调的变体来实现迭代反向翻译,并在 WMT 2014 中实现了超过 7-10 BLEU 点的改进,与监 - ACL混合机器翻译在语法错误修正中接近人类水平的表现
本文将基于统计机器翻译和神经机器翻译的自动语法纠错方法相结合,形成一种新的系统,这个混合系统在 CoNLL-2014 和 JFLEG 基准测试上取得了最新的最佳结果。我们的分析显示,所创建的系统比迄今为止报告的任何其他 GEC 系统更接近达 - 从可比语料库中提取英波斯平行语料库
使用双向方法从英语和波斯文档的维基百科中提取平行句子,使用机器翻译系统将波斯文翻译成英文,反之亦然,然后使用 IR 系统测量翻译后句子的相似度,并将提取的句子加入现有 SMT 系统的训练数据,以改善翻译质量。提出的方法略优于单向方法。提取的 - EMNLP低资源语言的神经机器翻译
本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序,在低资源语言中使用神经机器翻译 (NMT) 模型,产生仅使用 7 万个训练数据令人满意的翻译结果。
- MM机器翻译中利用元信息的神经和统计方法
本文研究了利用元信息及更丰富的上下文方法来改善机器翻译质量,首要关注输入文本的类别信息,采用最先进的神经网络方法在统计机器翻译框架下解决该问题,实验结果在某些文本类别上 BLEU 评分提高了 3%。
- EMNLP基于确定性日志的旁路反事实学习:统计机器翻译案例研究
本文解决了在风险规避商业语言翻译模型确定性记录历史性翻译,并使用这些记录进行反事实学习过程中存在的问题,实现了从确定性 bandit 日志中进行反事实学习并取得了 2 BLEU 点的提高。
- EMNLP为句子校正调整序列模型
对序列到序列方法进行的纠错实验中发现,基于字符的模型通常比基于单词的模型和通过卷积编码子单词信息的模型更有效,并且将输出数据建模为一系列差异可提高效果,而我们最强的序列到序列模型比最强的基于短语的统计机器翻译模型在数据相同的情况下得分提高了 - Booking.com 的机器翻译:历程和经验教训
该论文介绍了一个新的神经机器翻译系统,并将其与两个常规的在线引擎(统计和神经)以及作者自己的统计机器翻译系统进行了基准测试。同时,该论文还分析了句子长度对统计机器翻译和神经机器翻译系统翻译输出质量的影响。
- 神经网络与基于短语的机器翻译的细粒度人类评估
本研究通过错误标注的方法比较了三种统计机器翻译方法(基于短语、因式分解基于短语和神经网络),结果显示最佳性能的神经网络系统比最差性能的基于短语系统减少了 54% 的错误,而错误类型符合多维质量度量标准(MQM)。
- ACL神经系统组合机器翻译
本文介绍了一种利用多源神经机器翻译和统计机器翻译输出的神经网络系统组合框架来提高翻译效果的方法,在中英翻译任务中实现了比传统系统组合方法更高的 BLEU 值。
- ACL统计机器翻译中数据选择的神经网络分类器
本研究提出了一种基于神经网络分类器的数据选择方法,实验结果表明相对于交叉熵法,该方法可提供更好的翻译质量,并且在不同语言对的情况下,实验结果是连贯一致的。