句法知识对英汉机器翻译的帮助作用

Jan, 2014

句法知识对英汉机器翻译的帮助作用

Does Syntactic Knowledge help English-Hindi SMT?

Taraka Rama, Karthik Gali, Avinesh PVS

TL;DR本文旨在探究各种参数设置下最先进的统计机器翻译系统，以提高像英语 - 印地语这样的 “远距离” 语言对翻译的质量，并提出了新的有效的重排序技术和简单预处理步骤，以显著改善翻译结果的质量。

Abstract

In this paper we explore various parameter settings of the state-of-art statistical machine translation system to improve the quality of the translation for a `distant' language pair like english-hindi. We propos

statistical machine translation english-hindi reordering pre-processing translation quality

发现论文，激发创造

印度语言的统计机器翻译

本文介绍了使用 SMT 技术和 MOSES 工具包开发双语 SMT 模型，实现英语和十五种低资源印度语言之间的翻译，包括使用 BLEU，METEOR 和 RIBES 等标准指标对翻译质量进行评估。

Jan, 2023

英印机器翻译重排序规则

本研究使用一种丰富的规则来重新排序源语句，以改善基于短语的 SMT 系统中的训练和解码效果。使用开源 SMT 工具包 MOSES 开发系统，通过 BLEU、NIST、多参考词错误率、多参考位置无关错误率等多重重要度量标准，验证所提升方法带来的质量改进

Oct, 2016

通过领域自适应技术利用语言相关性进行机器翻译

本文提出了一种新颖的方法使用基于 5-gram KenLM 语言模型的缩放相似性分数，尤其是对于相关语言，该方法使用 Kneser-ney 平滑技术从域内数据中过滤出域外数据，以提高机器翻译的翻译质量。此外，我们采用了其他域自适应技术，如多域、微调和迭代回译方法，以比较我们在 Hindi-Nepali 语言对上的新方法在 NMT 和 SMT 上的效果，我们的方法在多域方法上增加了约 2 个 BLEU 点，在微调 NMT 方面提高了约 3 个 BLEU 点，在迭代回译上提高了约 2 个 BLEU 点。

Mar, 2023

VAKTA-SETU: 一种选择印度语言的语音到语音机器翻译服务

本文介绍了面向英 - 印度语、英 - 马拉缇语和印度 - 马拉缇语语言对的部署就绪的语音 - to 语音机器翻译（SSMT）系统，该系统通过级联自动语音识别（ASR）、行话校正（DC）、机器翻译（MT）和文本 - to 语音合成（TTS）模型进行开发。

May, 2023

改进印度语系多语言神经机器翻译系统

本文提出了一个 MNMT 系统，通过各种增强策略改进它的性能，研究了方言、语言脚本等因素在提高低资源语言翻译表现中的作用，并展示了回译和领域适应对提高源语言和目标语言翻译质量的优势。通过这些方法，我们的模型在评价指标（即一组 IL 的 BLEU（双语评估协议）得分）方面比基线模型更高效。

Sep, 2022

一种有效的无监督机器翻译方法

本文针对现有无监督机器翻译存在的不足之处，通过利用子词信息、开发理论上有根据的无监督调优方法和引入联合优化程序等手段，改进了统计机器翻译系统，并将其用于初始化双 NMT 模型并进行后续微调，使无监督机器翻译的表现大幅度提升。在英德无监督机器翻译领域，改进后的 SMT 系统相较之前最好的无监督系统 BLEU 值提高了 5.5 个百分点，超过了当时的（监督）任务获胜者。

Feb, 2019

无监督统计机器翻译

本文提出了一种基于 SMT 的新颖方法，通过跨语言嵌入映射从单语料库中诱导短语表，再将其与 N-gram 语言模型相结合，通过无监督超参数微调的变体来实现迭代反向翻译，并在 WMT 2014 中实现了超过 7-10 BLEU 点的改进，与监督 SMT 相比关闭了 2-5 BLEU 点的差距。

Sep, 2018

印地语 - 英语机器翻译的混合方法

本文提出了一种扩展的混合数据驱动机器翻译系统，采用基于短语的统计机器翻译（SMT）、基于示例的机器翻译（EBMT）和基于规则的机器翻译（RBMT）的组合方法，其利用规则 MT 指导 EBMT 和 SMT 的候选翻译，提高了机器翻译系统的流畅度、准确性和语法精度，比谷歌、必应和巴比伦等已知翻译器在使用含有歧义和成语的句子时表现更好。

Feb, 2017

消除印度机器翻译任务流行数据集中的误译方法

使用最大的公开可访问的印度语言平行数据集 Samanantar 进行实验，在二种印度语言 Hindi 和 Odia 上构建一个基准神经机器翻译系统，并通过消除数据集中的错误翻译来提高翻译质量，进而发现尽管 ILs-English 和 English-ILs 系统使用相同的数据集进行训练，但 ILs-English 在所有评估指标上的表现更好。

Jan, 2024

使用多任务张量网络的统计机器翻译特征

提出了一种以神经网络为基础的三重方法，用以改善统计机器翻译，并在阿拉伯语 - 英语和中文 - 英语翻译上实现了显著改进，包括新的神经网络特征、张量层和多任务学习。

Jun, 2015