翻译模型缺乏流畅度的影响

May, 2022

Lack of Fluency is Hurting Your Translation Model

Jaehyo Yoo, Jaewoo Kang

TL;DR本文描述了一种基于梯度的机器翻译模型训练方法，在去除了语言偏差和提高流畅度的基础上，使用反转和增强技术提高翻译模型的性能。

Abstract

Many machine translation models are trained on bilingual corpus, which consist of aligned sentence pairs from two different languages with same semantic. However, there is a qualitative discrepancy between train and test set in bilingual corpus. While the most train sentences are creat

machine translation fluency noise training corpus back-translation performance

发现论文，激发创造

从不流畅的言语走向流利的翻译

本文提出了一种在端到端语音翻译模型中加入中间步骤的方法，以去除交谈式语音中的不流利现象，并引入了清理后的 Fisher 西班牙语 - 英语数据集，为清理含绕口令语音的翻译提供了一个基准。

Nov, 2018

多元神经机器翻译的流畅性和忠实度建模

论文提出了一种引入评估模块来指导预测结果分布的神经机器翻译方法，从流畅性和忠实度的角度引导模型生成具有连接性的短语，实验结果表明，该方法可以显著提高翻译质量。

Nov, 2019

非流利的合成目标语言数据提高神经机器翻译

从有限的平行语料中生成合成训练样本，即非流利目标端句子能够在多语种机器翻译框架中有效地提高翻译性能，并且这种方法对原始训练语料的规模不敏感，从而使系统更鲁棒、产生更少的幻觉。

Jan, 2024

神经机器翻译中的不确定性分析

本研究提出了工具和度量方法来评估机器翻译模型中数据不确定性的捕捉，以及这种不确定性如何影响生成翻译的搜索策略。我们的结果表明，搜索功能表现出色，但模型往往在假设空间中分散了太多的概率质量。此外，我们还提出了评估模型校准的工具，并展示了如何轻松解决当前模型的一些缺陷。

Feb, 2018

用于评估句子级流畅性的无监督方法：我们真的需要参考吗？

该研究在不使用参考文献的情况下，利用各种词嵌入和递归神经网络结构的语言模型，通过比较分析 10 种印度语言中的流畅度评分与人工判断的相关性，提供了一种测量文本流畅性的新方法。

Dec, 2023

端到端语音翻译中，从不流畅的语音中获得流畅的翻译

使用序列到序列模型实现了从具有语言障碍的演讲转化为流畅的文本，并且引入了如何评估此任务的考虑，为新任务提供了基础，即同时消除演讲中的语言障碍。

Jun, 2019

利用大型语言模型作为发错流产生器提升发错流检测

利用大型语言模型（LLM）生成多样和更真实的句子作为数据增强，结合不确定性感知的数据过滤方法，提高失语检测性能，进一步增强成本效益。

Mar, 2024

流畅引导下的跨语言图像字幕生成

本研究旨在建立一种跨语言图像描述模型，使用机器翻译的句子进行训练并通过流利度引导的学习框架提高生成的中文标题的流畅性和相关性，取得了显著成效。

Aug, 2017

多任务自监督学习用于消除语注检测

本文针对训练数据短缺的问题，提出了使用自监督方法结合无标注数据构建伪训练数据进行预训练，并利用有标注的训练数据进行微调的方法，达到了使用少量数据在英语 Switchboard 数据集上与之前使用全数据进行训练的系统表现相当的结果。使用全数据进行训练时，我们的方法可将误差降低 21%。

Aug, 2019

语言污染现象解释英语预训练模型的跨语言能力

本文研究预训练语言模型在跨语言转移方面的表现，发现常见的英文预训练集中包含大量非英文文本，即使数量仅占不到 1%，也会导致大规模数据集中有数亿个外语词汇。作者还展示了即使是这些少量的非英文数据，也能够促进模型在目标语言上的跨语言转移，并且目标语言性能与预训练中见到的该语言数据量强相关。因此，我们认为在评估跨语言转移时，应该考虑到预训练模型不是真正的单语言模型。

Apr, 2022