多语句-T5:可扩展的多语句编码器适用于多语言应用
该研究介绍了一种以单个BiLSTM编码器为基础的多语言句子表示架构,其使用共享的BPE词汇表来学习93种语言的嵌入表示,并在公开可用的平行语料库上进行了训练。使用英文注释数据进行分类器训练,可将其转移至任何一种语言,且可以在跨语言自然语言推理、文档分类和平行语料库挖掘中取得良好效果。
Dec, 2018
本文提出了一种基于变分概率框架的深度潜变量模型,使用双语数据,利用拥有共性的语义信息与特性进行训练,使模型可以将并行语句进行源分离,得到隐含的语义向量,进而对单语数据进行预测。实验证明,该方法在无监督语义相似性评估方面的表现明显优于现有方法,并且还能在不适合使用简单词语重叠作为相似性指标的更难评估子集中发挥最大的作用。
Nov, 2019
本文介绍了一种将现有的句子嵌入模型扩展到新语言的简便有效方法,训练基于将翻译后的句子映射到与原始句子相同的向量空间位置的思想,相较于其他多语言句子嵌入训练方法,具有扩展现有模型以增加新语言的简易性、保证向量空间所需属性的易操作性和较低的硬件要求等优势。代码已公开,可以用于将句子嵌入模型扩展到400多种语言。
Apr, 2020
本文针对多种多语句子编码器,提出一种探究其对涵盖词汇、形态和句法结构的多种语言特性的表征方法,发现在不同的预训练策略下,编码不同语言特性的效果存在差异。
Sep, 2020
本研究利用文本到文本转换器(T5)提供了对句子嵌入的首次探索。通过3种提取T5句子嵌入的方法,本研究建立了一个新的句子表示转移基准SentGLUE,并在语义文本相似性(STS)等方面超过了Sentence-BERT和SimCSE句子嵌入模型。
Aug, 2021
本文将多语言预训练模型转化为多语言句子编码器,通过对句子编码器进行探索,采用基于对比学习的简单而高效的方法,揭示了句子编码器隐含的跨语言词汇知识,进而提供了一种利用跨语言词汇的工具。
Apr, 2022
本研究系统地比较了使用LASER、LaBSE和Sentence BERT预训练的多语言模型从句子中生成文档级表示的方法,证明了对于多语言任务来说,通常使用句子嵌入的巧妙组合要优于将整个文档编码为单个单元,并且说明了虽然简单的句子平均值对于分类任务来说已经有一定的效果,但对于语义任务来说需要更复杂的组合。
Apr, 2023
通过上下文学习,我们提出了一种基于上下文学习的方法,旨在提高句子嵌入的性能。我们的方法能够使大型语言模型生成高质量的句子嵌入,并且在语义文本相似度任务上表现与当前对比学习方法相当。通过调整模型大小,我们发现超过几十亿参数的模型会对语义文本相似度任务的性能造成损害,但最大的模型超过了其他模型,并在迁移任务上取得了新的最先进结果。我们还使用当前的对比学习方法对大型语言模型进行了微调,将包含我们基于提示的方法的2.7B OPT模型的性能超过了4.8B ST5的性能,在语义文本相似度任务上实现了新的最先进结果。
Jul, 2023
本技术报告介绍了开源多语言E5文本嵌入模型的训练方法和评估结果,该模型于2023年中期发布。提供了三种不同大小的嵌入模型(小/基础/大),在推理效率和嵌入质量之间取得平衡。训练过程遵循英文E5模型的方法,包括对10亿个多语言文本对进行对比预训练,然后在一系列标记数据集上进行微调。此外,我们引入了一种新的指令调整嵌入模型,其性能与类似规模的最先进英文模型相当。有关模型发布的信息可以在此https网址中找到。
Feb, 2024
跨语言句子嵌入领域最近取得了很大的进展,但是由于平行语料的稀缺性,对于低资源语言的研究相对滞后。本文表明当前模型中低资源语言的跨语言词表示与高资源语言的对齐程度明显不足。为了解决这个问题,我们引入了一种新的框架,通过使用现成的词对齐模型,显式地对英语和八种低资源语言之间的单词进行对齐。该框架包含三个主要的训练目标:对齐的单词预测、单词翻译排序,以及广泛使用的翻译排序。我们通过在双语检索任务上进行实验证明了我们的方法,该方法在低资源语言的句子嵌入上取得了显著的改进。此外,所提出模型在高资源语言上更广泛任务的竞争性表现凸显了其实用性。
Apr, 2024