跨模态对齐的低资源神经机器翻译
本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子,证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。
Jun, 2018
本文对低资源神经机器翻译进行了调查,并根据所使用的辅助数据将相关作品分为三类:利用源语言和 / 或目标语言的单语数据,利用来自辅助语言的数据以及利用多模态数据。该调查有助于研究人员更好地理解该领域,鼓励他们设计更好的算法,也有助于帮助行业从业者选择适合其应用程序的算法。
Jul, 2021
本研究提出了一种以数据增强为基础的方法,针对低频词汇在合成的新语境中生成新的句子对,以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示,相对于基准和回译方法,我们的方法能够提高翻译质量,最高可提高 2.9 BLEU 分数。
May, 2017
本文提出了一种交互式多模态框架,通过游戏的方式解决了低资源语言对和领域下数据匮乏的翻译问题,并在实验中证明此学习机制显著优于现有的最先进方法。
Feb, 2018
跨语言句子嵌入领域最近取得了很大的进展,但是由于平行语料的稀缺性,对于低资源语言的研究相对滞后。本文表明当前模型中低资源语言的跨语言词表示与高资源语言的对齐程度明显不足。为了解决这个问题,我们引入了一种新的框架,通过使用现成的词对齐模型,显式地对英语和八种低资源语言之间的单词进行对齐。该框架包含三个主要的训练目标:对齐的单词预测、单词翻译排序,以及广泛使用的翻译排序。我们通过在双语检索任务上进行实验证明了我们的方法,该方法在低资源语言的句子嵌入上取得了显著的改进。此外,所提出模型在高资源语言上更广泛任务的竞争性表现凸显了其实用性。
Apr, 2024
本文提出了一种基于多任务学习方法,利用源端的单语言语言资源来解决神经机器翻译中由于缺少平行文本造成模型质量差的问题,并采用语义分析、句法分析和命名实体识别等辅助任务以将语义和 / 或句法知识注入到翻译模型中,实现了在英法、英波斯和英越三种翻译任务上的有效性验证。
May, 2018
本论文研究如何使用语言重叠来进行翻译,在仅有少量单语数据的情况下,结合去噪自编码、回译和对抗性目标,提出了一种名为 NMT-Adapt 的方法,实现了对低资源语言的翻译的提高。
May, 2021
本文介绍一种半监督的方法来解决低资源语言机器翻译的问题,通过增强高质量的句子对和使用基于 SentenceBERT 的过滤器来提高数据质量,将交叉熵损失和 KL 散度相结合,特别是通过伪目标句子实现无监督训练,实验证明该方法可以显著提高 NMT 基线性能
Apr, 2023
本研究旨在提出一种算法用于跨模态泛化,通过使用强弱配对的跨模态数据对表示空间进行元对齐的新方法,实现在不同模态下快速完成新任务的训练。该算法被运用于三个分类任务,即文本到图像,图像到音频和文本到语音,即使目标模态只有少量(1-10)标记样本和存在噪声标签,该算法的表现也非常强。
Dec, 2020
跨语言跨模态检索致力于在不使用任何标注的视觉 - 目标语言数据对的情况下实现视觉和目标语言之间的对齐。本研究提出了一种名为 CL2CM 的通用框架,使用跨语言转移改善了视觉和目标语言之间的对齐,可在跨模态网络中为可靠全面的语义对应(知识)提供优势,并通过在多语言图像 - 文本数据集和视频 - 文本数据集上进行实验验证了其高潜力和有效性。
Dec, 2023