句法知识对英汉机器翻译的帮助作用
本文介绍了使用 SMT 技术和 MOSES 工具包开发双语 SMT 模型,实现英语和十五种低资源印度语言之间的翻译,包括使用 BLEU,METEOR 和 RIBES 等标准指标对翻译质量进行评估。
Jan, 2023
本研究使用一种丰富的规则来重新排序源语句,以改善基于短语的 SMT 系统中的训练和解码效果。使用开源 SMT 工具包 MOSES 开发系统,通过 BLEU、NIST、多参考词错误率、多参考位置无关错误率等多重重要度量标准,验证所提升方法带来的质量改进
Oct, 2016
本文提出了一种新颖的方法使用基于 5-gram KenLM 语言模型的缩放相似性分数,尤其是对于相关语言,该方法使用 Kneser-ney 平滑技术从域内数据中过滤出域外数据,以提高机器翻译的翻译质量。 此外,我们采用了其他域自适应技术,如多域、微调和迭代回译方法,以比较我们在 Hindi-Nepali 语言对上的新方法在 NMT 和 SMT 上的效果,我们的方法在多域方法上增加了约 2 个 BLEU 点,在微调 NMT 方面提高了约 3 个 BLEU 点,在迭代回译上提高了约 2 个 BLEU 点。
Mar, 2023
本文介绍了面向英 - 印度语、英 - 马拉缇语和印度 - 马拉缇语语言对的部署就绪的语音 - to 语音机器翻译(SSMT)系统,该系统通过级联自动语音识别(ASR)、行话校正(DC)、机器翻译(MT)和文本 - to 语音合成(TTS)模型进行开发。
May, 2023
本文提出了一个 MNMT 系统,通过各种增强策略改进它的性能,研究了方言、语言脚本等因素在提高低资源语言翻译表现中的作用,并展示了回译和领域适应对提高源语言和目标语言翻译质量的优势。通过这些方法,我们的模型在评价指标(即一组 IL 的 BLEU(双语评估协议)得分)方面比基线模型更高效。
Sep, 2022
本文针对现有无监督机器翻译存在的不足之处,通过利用子词信息、开发理论上有根据的无监督调优方法和引入联合优化程序等手段,改进了统计机器翻译系统,并将其用于初始化双 NMT 模型并进行后续微调,使无监督机器翻译的表现大幅度提升。在英德无监督机器翻译领域,改进后的 SMT 系统相较之前最好的无监督系统 BLEU 值提高了 5.5 个百分点,超过了当时的(监督)任务获胜者。
Feb, 2019
本文提出了一种基于 SMT 的新颖方法,通过跨语言嵌入映射从单语料库中诱导短语表,再将其与 N-gram 语言模型相结合,通过无监督超参数微调的变体来实现迭代反向翻译,并在 WMT 2014 中实现了超过 7-10 BLEU 点的改进,与监督 SMT 相比关闭了 2-5 BLEU 点的差距。
Sep, 2018
本文提出了一种扩展的混合数据驱动机器翻译系统,采用基于短语的统计机器翻译(SMT)、基于示例的机器翻译(EBMT)和基于规则的机器翻译(RBMT)的组合方法,其利用规则 MT 指导 EBMT 和 SMT 的候选翻译,提高了机器翻译系统的流畅度、准确性和语法精度,比谷歌、必应和巴比伦等已知翻译器在使用含有歧义和成语的句子时表现更好。
Feb, 2017
使用最大的公开可访问的印度语言平行数据集 Samanantar 进行实验,在二种印度语言 Hindi 和 Odia 上构建一个基准神经机器翻译系统,并通过消除数据集中的错误翻译来提高翻译质量,进而发现尽管 ILs-English 和 English-ILs 系统使用相同的数据集进行训练,但 ILs-English 在所有评估指标上的表现更好。
Jan, 2024
提出了一种以神经网络为基础的三重方法,用以改善统计机器翻译,并在阿拉伯语 - 英语和中文 - 英语翻译上实现了显著改进,包括新的神经网络特征、张量层和多任务学习。
Jun, 2015