基于词组的统计机器翻译语言模型

EMNLPJan, 2015

基于词组的统计机器翻译语言模型

Phrase Based Language Model For Statistical Machine Translation

Jia Xu, Geliang Chen

TL;DR本文研究了基于短语的语言模型，针对机器翻译使用引入了全面的基于短语的语言模型，并通过初步实验结果表明，相比于基于单词的语言模型，我们的方法在困惑度和翻译质量方面表现更好。

Abstract

We consider phrase based language models (LM), which generalize the commonly used word level models. Similar concept on phrase based LMs appears in speech recognition, which is rather specialized and thus less suitable for machine translation (→

phrase based language models mt perplexity translation quality exhaustive phrase-based lms

发现论文，激发创造

利用基于短语的模型在混合搜索中进行神经机器翻译

本文介绍了一种混合搜索的关注机制神经机器翻译模型，该模型使用机器翻译模型和短语级翻译概率等特征来实现目标短语的波束搜索，结果显示与强 NMT 基准模型相比，使用短语模型搜索可以将机器翻译质量提高达到 2.3% 的 BLEU 绝对值的效果。

Aug, 2017

基于短语和神经网络的无监督机器翻译

该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型，一种是神经模型，一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语基准测试上，这些模型分别获得 28.1 和 25.2 BLEU 分数，比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。

Apr, 2018

基于短语的统计机器翻译自适应连接

提出了基于短语的 SMT 数据选择方法，该方法能够在 IWSLT/NIST 数据集上提高 SMT 性能（相比短语基线系统增加 1.6，相比现有方法增加 0.9）。

Jul, 2016

基于词典短语级别的大语言模型提示用于机器翻译

本研究通过利用双语词典的先验知识提供提示，提出了一种新的 DiPMT 方法，可以有效解决 LLM 在低资源机器翻译和领域转移情况下难以翻译生僻词的问题，并且实验结果表明 DiPMT 能够提高 LLM 的翻译性能。

Feb, 2023

神经机器翻译中词组翻译

本文提出了一种方法将基于统计的短语机器翻译方法中存储的目标短语与神经机器翻译模型的编码器 - 解码器结构相结合，其中短语记忆被动态地生成，提供上下文信息，以进行短语翻译，实现了中英文翻译的显著提升。

Aug, 2017

语言模型是优秀的翻译器

该研究表明，预训练的单一语言模型（LM4MT）可以与强大的编码器 - 解码器 NMT 模型在标准机器翻译基准测试中取得可比较的性能，LM4MT 还可以轻松利用源侧文本作为额外的监督。LM4MT 可以为源语言和目标语言提供统一的表示形式，在跨语言知识转移方面表现更好，并在基于中间语言和零样本翻译任务中获得显著的优势。

Jun, 2021

神经网络与基于短语的机器翻译质量比较：一个案例研究

本文分析了神经网络机器翻译（NMT）与基于短语的机器翻译（PBMT）在英语 - 德语翻译数据集上的表现，从专业翻译的高质量后编辑结果中发现神经网络机器翻译在表述动词重新排序等语言现象时具有更好的建模能力，但仍有需要改进的方面。

Aug, 2016

低资源语言的神经机器翻译

本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序，在低资源语言中使用神经机器翻译 (NMT) 模型，产生仅使用 7 万个训练数据令人满意的翻译结果。

Aug, 2017

神经机器翻译中使用短语机制的有效方法

我们报告了一种有效的方法，使用短语机制 PhraseTransformer 改进了基线模型 Transformer，在构建神经机器翻译系统时在越中平行语料库上取得了最新的成果。

Aug, 2023

短语翻译模型的语义表示学习

本论文提出了一种新的基于语义的短语翻译模型，在低维潜在的语义空间中将源语言和目标语言的短语映射成连续的向量，通过计算它们在这个新空间中的距离来计算它们的翻译分数。通过多层神经网络投影源语言和目标语言的短语，学习权重以直接优化机器翻译结果的质量。在两个欧洲议会翻译任务中（英语 - 法语和德语 - 英语）进行了实验评估，结果表明，这种基于语义的短语翻译模型显著提高了最先进的基于短语的统计机器翻译系统的性能，BLEU 分数提高了 0.7-1.0 分。

Nov, 2013