相关语言之间基于子词级短语的 SMT 的更快解码

COLINGNov, 2016

相关语言之间基于子词级短语的 SMT 的更快解码

Faster decoding for subword level Phrase-based SMT between related languages

Anoop Kunchukuttan, Pushpak Bhattacharyya

TL;DR本文研究了基于短语的统计机器翻译框架中不同解码器参数和数据格式的选择对解码时间和翻译准确性的影响，并建议了最佳设置，显著提高解码时间，对翻译准确性影响较小。

Abstract

A common and effective way to train translation systems between related languages is to consider sub-word level basic units. However, this increases the length of the sentences resulting in increased

translation systems sub-word level decoding time data format translation accuracy

发现论文，激发创造

基于短语的强制解码改进神经机器翻译

本研究提出了一种将传统 SMT 模型与神经机器翻译相结合的方法，从而提高翻译质量。该方法利用现有的基于短语的 SMT 模型计算基于短语的解码成本，并将其用于重新排列 n 个最佳 NMT 输出。研究表明，利用强制解码成本对 NMT 输出进行排序可以成功提高四种不同语言的翻译质量。

Nov, 2017

神经机器翻译中词组翻译

本文提出了一种方法将基于统计的短语机器翻译方法中存储的目标短语与神经机器翻译模型的编码器 - 解码器结构相结合，其中短语记忆被动态地生成，提供上下文信息，以进行短语翻译，实现了中英文翻译的显著提升。

Aug, 2017

多语言神经机器翻译的高效推理

本论文研究了如何通过采用轻量级解码器和词汇筛选来加速多语言神经机器翻译的推理速度，而不影响翻译质量，使用 BLEU 和 chrF 进行实验验证，并进行了健壮性评估和人类评估。

Sep, 2021

Subword 分段机器翻译：统一分段和目标句子生成

该研究提出了一种称为子词分节机器翻译（SSMT）的新方法，通过在单个可训练模型中联合学习目标句子单词的分割和目标句子生成，在生成翻译过程中采用动态解码算法进行细分操作，实验结果表明，SSMT 能提高粘着语言的 chrF 分数以及对于评估形态组成通用性构建的测试集的鲁棒性也更强。

May, 2023

论字符级神经机器翻译中词边界的重要性

本文提出了一种更高效的字符级神经机器翻译解码方法，使用词和字符级别的分层解码结构，能够优化机器翻译性能并学习更长的上下文和语法依赖。

Oct, 2019

基于词组的统计机器翻译语言模型

本文研究了基于短语的语言模型，针对机器翻译使用引入了全面的基于短语的语言模型，并通过初步实验结果表明，相比于基于单词的语言模型，我们的方法在困惑度和翻译质量方面表现更好。

Jan, 2015

神经机器翻译的分割粒度优化

本文提出一种自动调节神经机器翻译中分词粒度的方法，可以在训练的同时引入新的词汇并优化语言分割，最终达到与最优表现相似的结果，并在训练效率和罕见词汇的表现方面带来了改进。

Oct, 2018

利用子字符级信息的表意文字神经机器翻译

该研究着眼于汉字与英文字母等不同书写语言之间的差异，并使用了一种简单的方法来利用汉字更细致的结构信息，以提高神经机器翻译系统的性能。结果表明，这种方法不仅改进了汉英翻译，还进一步改进了汉日翻译，因为它利用了类似汉字部首的共享信息。

Sep, 2018

基于块的双尺度解码器用于神经机器翻译

本文提出了一种新型神经机器翻译解码器，通过将解码状态分成两个部分并在不同时间尺度上更新，实现从词块到单词的分级翻译，从而提高了翻译性能。

May, 2017

低资源语音到文本翻译

通过实验研究，我们发现在资源有限的情况下，从字符级识别转化成单词级可以显著提高低资源语言语音翻译的速度，并且在训练数据相对较少的情况下，仍然可以实现相对较高的词汇精度和召回率。

Mar, 2018