使用双动量对跨语言句子表示进行对齐
提出一种基于双语 CBOW 方法的联合学习方法,通过利用句子对齐语料库获得强健的跨语言词和句子表示,显著提高了跨语言句子检索性能,并在维持单词翻译方面与最先进的方法并驾齐驱,同时在零 - shot 跨语言文档分类任务方面达到深度 RNN 方法的水平,对单语词向量的提高优势明显。
Dec, 2019
本文提出一种基于跨语言句嵌入的无监督打分函数,用于计算不同语言中文档之间的语义距离,从而指导文档对齐算法以适当地匹配跨语言 Web 文档,并在不同语言对中显著提高对齐效果。
Jan, 2020
跨语言句子嵌入领域最近取得了很大的进展,但是由于平行语料的稀缺性,对于低资源语言的研究相对滞后。本文表明当前模型中低资源语言的跨语言词表示与高资源语言的对齐程度明显不足。为了解决这个问题,我们引入了一种新的框架,通过使用现成的词对齐模型,显式地对英语和八种低资源语言之间的单词进行对齐。该框架包含三个主要的训练目标:对齐的单词预测、单词翻译排序,以及广泛使用的翻译排序。我们通过在双语检索任务上进行实验证明了我们的方法,该方法在低资源语言的句子嵌入上取得了显著的改进。此外,所提出模型在高资源语言上更广泛任务的竞争性表现凸显了其实用性。
Apr, 2024
本研究使用神经机器翻译框架跨越六种完全不同的语言,在学习联合句子表示方面。我们的目标是构建一种与语言无关的表示形式,有可能捕捉到基础的语义。我们定义了一种新的跨语言相似度衡量方式,对我们的模型学习出的 140 万个句子表示进行比较,并研究了相似句子的特征。实验证据表明,嵌入空间中相似的句子实际上具有高度的语义相关性,但通常具有不同的结构和语法。这种关系也适用于不同语言之间的比较。
Apr, 2017
通过利用翻译句子对齐内部句子表示,并通过回答不同语言的提示问题对齐模型输出,我们提出了一个简单而有效的对齐框架,显著增强了生成模型的跨语言能力并减小了性能差异。进一步分析表明,它导致了更好的多语言模型的内部多语言表示分布。
Nov, 2023
提出了一种新的方法来学习多模态多语言嵌入,用于匹配两种语言中图像及其相关标题,结合两个现有的目标函数,在模型中调整现有语言之间的词嵌入对齐,证明该方法实现了更好的泛化,在文本 - 图像和图像 - 文本检索任务中,以及标题 - 标题相似性任务中取得了最先进的性能,使用了 Multi30k 和 Microsoft-COCO 两个多模态多语言数据集进行评估。
Oct, 2019
提出一种基于多语言预训练模型的词语对齐方法,通过在浅层中利用共享的自注意力模块,将源语句和目标语句单独编码,而在较高层通过交叉注意力模块显式地构建跨语言交互,达到提高词语对齐质量的效果。通过采用两阶段训练框架,实现对模型的有效训练,实验结果在五对语言中有四对的性能达到了最新水平。
Oct, 2022
我们提出了一种双重对齐预训练框架 (DAP),它结合了句级和令牌级对齐,用于跨语言句子嵌入,其中引入了一种表示翻译学习 (RTL) 任务来将翻译信息嵌入到令牌表示中。在三个跨语言基准测试上进行了广泛实验,表明我们的方法能够显著提高句子嵌入。
May, 2023