非监督式识别翻译语言特征
本文利用无监督语音识别、机器翻译与语音合成技术,探讨实现无标注数据建立语音翻译系统的方法,通过管道方法或生成伪标签,对端到端语音翻译模型进行训练。同时,提出一种无监督域自适应方法,能够提供一定的性能提升。实验结果表明,本文提出的无监督语音翻译方法,在 Libri-Trans 基准测试的 BLEU 分数上超过以前报告的无监督效果的 3.2 个点,在 CoVoST2 数据集上,本文的最佳系统相对于最佳监督学习的端到端模型(无预训练),在五个语种(X-En)上平均提高 5.0 个 BLEU 分数。在 MuST-C 和 CVSS 基准测试上,本文也取得了有竞争力的结果。
Oct, 2022
通过对不同语言对、语料库和低资源语言实施 extensive empirical evaluation,我们发现 unsupervised machine translation 的性能很大程度上取决于 source 和 target corpora 的相似度、随机 word embedding initialization,以及源语言和目标语言的文字脚本。因此,我们提倡对 unsupervised MT 系统进行广泛的实证评估,并鼓励在最有前途的范式上继续研究。
Apr, 2020
本文介绍一种可通过将文档内容表示为多语言词库的词向量,并测量词向量间的语义相似度以识别大量候选文档中的翻译和其它相似文档等应用,且经测试,该系统可以在超过 820 个文档的大搜索空间中检测到 96% 以上精度的翻译及跨语言文档抄袭。
Sep, 2006
比较了具有相似质量的监督机器翻译和无监督机器翻译系统之间的翻译结果,发现无监督输出在流畅性和结构上比监督机器翻译更不同,同时提出一种将两种方法相结合的方式,可通过人工评估提高充分性和流畅性。
Jun, 2021
本文介绍了一种基于神经文本分类器的方法,将自然语言处理中翻译模型的自动化评估与人类评估相结合,并揭示人机差异,其中包含翻译质量和人工智能的深入讨论。
Mar, 2019
本文提出了一种针对图像翻译的无监督学习模型,TUNIT,该模型可以在没有成对数据或领域标签的情况下进行图像 - 图像翻译,同时在各种数据集上表现出可比甚至更好的性能。此外,该模型还可以轻松扩展到半监督学习。
Jun, 2020
研究采用自监督学习与非监督学习相结合的方法,通过基于翻译的风格转换降低翻译文本中的翻译风格,消除了对平行验证数据的需求,有效地降低了翻译类文本的分类准确性,并在目标原始风格中保持了内容和流畅度。
Oct, 2023