翻译模型缺乏流畅度的影响
本文提出了一种在端到端语音翻译模型中加入中间步骤的方法,以去除交谈式语音中的不流利现象,并引入了清理后的 Fisher 西班牙语 - 英语数据集,为清理含绕口令语音的翻译提供了一个基准。
Nov, 2018
论文提出了一种引入评估模块来指导预测结果分布的神经机器翻译方法,从流畅性和忠实度的角度引导模型生成具有连接性的短语,实验结果表明,该方法可以显著提高翻译质量。
Nov, 2019
从有限的平行语料中生成合成训练样本,即非流利目标端句子能够在多语种机器翻译框架中有效地提高翻译性能,并且这种方法对原始训练语料的规模不敏感,从而使系统更鲁棒、产生更少的幻觉。
Jan, 2024
本研究提出了工具和度量方法来评估机器翻译模型中数据不确定性的捕捉,以及这种不确定性如何影响生成翻译的搜索策略。我们的结果表明,搜索功能表现出色,但模型往往在假设空间中分散了太多的概率质量。此外,我们还提出了评估模型校准的工具,并展示了如何轻松解决当前模型的一些缺陷。
Feb, 2018
该研究在不使用参考文献的情况下,利用各种词嵌入和递归神经网络结构的语言模型,通过比较分析 10 种印度语言中的流畅度评分与人工判断的相关性,提供了一种测量文本流畅性的新方法。
Dec, 2023
使用序列到序列模型实现了从具有语言障碍的演讲转化为流畅的文本,并且引入了如何评估此任务的考虑,为新任务提供了基础,即同时消除演讲中的语言障碍。
Jun, 2019
本文针对训练数据短缺的问题,提出了使用自监督方法结合无标注数据构建伪训练数据进行预训练,并利用有标注的训练数据进行微调的方法,达到了使用少量数据在英语 Switchboard 数据集上与之前使用全数据进行训练的系统表现相当的结果。使用全数据进行训练时,我们的方法可将误差降低 21%。
Aug, 2019
本文研究预训练语言模型在跨语言转移方面的表现,发现常见的英文预训练集中包含大量非英文文本,即使数量仅占不到 1%,也会导致大规模数据集中有数亿个外语词汇。作者还展示了即使是这些少量的非英文数据,也能够促进模型在目标语言上的跨语言转移,并且目标语言性能与预训练中见到的该语言数据量强相关。因此,我们认为在评估跨语言转移时,应该考虑到预训练模型不是真正的单语言模型。
Apr, 2022