多源机器翻译系统对转录错误的鲁棒性

ACLMay, 2023

多源机器翻译系统对转录错误的鲁棒性

Robustness of Multi-Source MT to Transcription Errors

Dominik Macháček, Peter Polák, Ondřej Bojar, Raj Dabre

TL;DR本文通过使用多种语言源改进一个多语言自动语音翻译的方法，验证了采用多源信息的方法能改善翻译质量，同时证实了这种方法对于实时同声翻译提供了巨大帮助

Abstract

automatic speech translation is sensitive to speech recognition errors, but in a multilingual scenario, the same content may be available in various languages via simultaneous interpreting, dubbing or subtitling.

automatic speech translation simultaneous interpreting multi-source setting neural machine translation real-time

发现论文，激发创造

利用同步的流式 ASR 辅助的直接同声传译

本文提出一种新型的语音翻译范例，通过使用两个分离但同步的解码器，一个用于流式 ASR, 一个用于直接语音翻译，并通过 ASR 生成的中间结果指导直接语音翻译，实现了流畅度更高的翻译质量。

Jun, 2021

带缺失数据的多源神经机器翻译

本文研究使用不完整的多语言语料库的多源神经机器翻译的方法，并通过使用特殊符号来替换缺失语言的方法实现了训练和测试时的不完整语料库，实验结果表明，使用 <NULL> 符号的多源 NMT 系统 BLEU 值优于单独的 NMT 系统。

Jun, 2018

提高语音翻译的稳健性

提出了一种简单且有效的方法来改进神经机器翻译在语音翻译中的稳健性，通过在干净的平行数据集中注入真实输出中存在的噪声以及结合拼音特征，使 NMT 可以在类似的单词分布下进行训练和测试，实验结果表明，该方法在多个噪声测试集上的稳定性表现优异，并在 WMT'17 中英测试集上取得了泛化性能的提高。

Nov, 2018

干净与嘈杂语音转录的强健神经机器翻译

本文研究如何使强 NMT 系统适应典型 ASR 错误，并提出适应策略以训练单一系统，能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明，对包括 ASR 转录本的大量并行数据进行调整对于相同类型的测试数据是有益的，但在翻译干净文本时会产生轻微恶化。在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。

Oct, 2019

多源句法神经机器翻译

提出了一种新颖的多源技术，利用线性化的解析将源语法合并到神经机器翻译中，通过使用单独的编码器将相同源语句的顺序和解析版本相结合，然后使用分层注意机制将结果表示组合，该模型在 WMT17 英德任务上比 seq2seq 和基线解析模型都有超过 1 BLEU 的改进，并且分析表明，与标准解析方法相比，我们的多源语法模型能够成功进行翻译而不需要任何已解析的输入，在长句子上的表现也不如基线模型差。

Aug, 2018

长篇同传口译的再翻译策略

本研究针对如何实现长篇演讲等语音内容的同声传译问题，采用重新翻译的方式进行同步翻译，并提出了优化应用工具以加强稳定性的方法。研究结果表明，这种方法不仅延迟极低，翻译结果也具有高质量，能够轻易地进行多语言翻译。

Dec, 2019

口译迷惑：从原始语言或口译者翻译

探究跟随原演讲者或译员进行自动同声传译的语音翻译系统能够在保持翻译质量的前提下，增加可提供的语言范围，从而通过 ESIC 进行英语到捷克语的研究，比较人类译员与机器翻译系统之间的差异，并进行人类评价以衡量信息损失。

Jun, 2021

在低资源环境下利用翻译进行语音转录

研究对濒危语言的数据采集，利用多源神经网络模型和翻译，成功提高了转录质量。

Mar, 2018

语音翻译中区分 ASR 和 MT 的错误

研究自动评估口语翻译质量的方法，通过单一分类器检测 ASR 和 MT 模块可能导致的 SLT 错误，并针对 3 种任务标注提出了两种标签提取方法。

Sep, 2017

多个来源胜过一个：在低资源词汇标注中整合外部知识

通过协调多个语言专业知识源，我们解决了低资源语言自动数据驱动预览中的数据稀缺问题，并在词级准确性方面获得了 5 个百分点的平均绝对改进，对横跨六种低资源语言的多样化数据集而言，这些增强在最低资源的 Gitksan 语言中表现尤为明显，我们实现了 10 个百分点的改进。此外，在相同六种语言的模拟超低资源环境中，仅在少于 100 个含义标注句子上训练下，我们在词级准确性方面获得了 10 个百分点的平均改进，超越了以往最先进系统的水平。

Jun, 2024