改进的翻译建议数据增强

Oct, 2022

Improved Data Augmentation for Translation Suggestion

Hongxiao Zhang, Siyu Lai, Songming Zhang, Hui Huang, Yufeng Chen...

TL;DR介绍了我们在 WMT'22 翻译建议共享任务中提交的系统，该系统基于多种翻译架构的集合，并使用三种策略构建合成数据以补偿监督数据的缺乏，并引入多阶段预训练策略，并在英德和英汉双向任务中排名第二和第三。

Abstract

Translation suggestion (TS) models are used to automatically provide alternative suggestions for incorrect spans in sentences generated by machine translation. This paper introduces the system used in our submission to the WMT'22 Translation Suggestion shared task. Our system is based on the ensemble of different translation architectures, including

translation suggestion models machine translation transformer synthetic data pre-training strategy

发现论文，激发创造

WeTS: 一个翻译建议的基准测试

We created a benchmark data set called WeTS, which includes human-annotated golden corpus and synthetic corpus to improve the performance of Translation Suggestion (TS) for post editing after machine translation (MT). Our Transformer-based model achieves State-Of-The-Art (SOTA) results on four translation directions: English-to-German, German-to-English, Chinese-to-English and English-to-Chinese.

Oct, 2021

利用生成式语言模型进行神经机器翻译的数据增强

通过利用大规模语言模型如 ChatGPT，我们探索了基于提示的数据增强方法，用于产生合成的平行语料库，比较了三种不同提示的方法，并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本，与后向翻译等其他增强方法相比，提高了未增强基线的 0.68 BLEU 分数。

Jul, 2023

面向文档级机器翻译的目标端增强

提出了目标端数据增强的数据稀疏性问题解决方法，通过生成多个潜在翻译来训练机器翻译模型，从而减少数据稀疏性的风险并提高翻译性能。

May, 2023

WMT 2022 翻译建议共享任务发现

WMT 共享任务中，我们获得了 92 个参与队伍提交的数据，使用 BLEU 自动评估指标对机器翻译中的翻译建议进行了评估，并提供了英德和英汉语料库来进行两个子任务的翻译建议。

Nov, 2022

神经机器翻译的句法感知数据增强

本文提出了一种新的句法感知数据增强策略，使用输入句子的依存句法树来确定每个句子中单词的选择概率，以有效增强神经机器翻译的翻译性能。实验表明，所提出的数据增强方法可显著提高基于句子独立的方法的翻译性能。

Apr, 2020

最小化工作量数据增广方法用于自动语音识别和翻译

研究数据扩增技术，通过将原始数据例子进行连接来建立新的训练实例，以改善用于原始数据优化的 Transformer 和 Conformer 模型，增加了对另外四种非英语语言识别方面的准确性。并证明其也适用于语音翻译任务。

Oct, 2022

低资源神经机器翻译中数据增强的再思考：多任务学习方法

本文提出了一种基于多任务学习的数据增强方法，通过将目标句子的顺序进行颠倒等操作，产生不流畅的目标句子，作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明，该方法相对于以扩展经验数据分布为目标的传统数据增强方法，可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。

Sep, 2021

低资源神经机器翻译的数据增强

本研究提出了一种以数据增强为基础的方法，针对低频词汇在合成的新语境中生成新的句子对，以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示，相对于基准和回译方法，我们的方法能够提高翻译质量，最高可提高 2.9 BLEU 分数。

May, 2017

2023 SemEval 任务 3 中的 NAP：少即是多吗？(回) 译作为检测说服技巧的数据增强策略

使用多语言转换器模型的数据扩充策略，探索向新闻中添加说服技巧的自动检测，应用于少量训练数据的情景下，有效提高系统性能，同时平衡人类和机器生成的数据对系统性能进行优化。

Apr, 2023

使用自监督预训练和数据增强增强的直接语音翻译

本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题，探索了自监督预训练和数据增强技术来解决此问题，实验表明自监督预训练可以提高模型性能，结合数据增强技术可以进一步提高模型性能。

Apr, 2022