多语言通用句子编码器用于语义检索
本研究介绍了一种生成句子嵌入向量的模型,旨在实现到其他自然语言处理任务的迁移学习,并探讨了模型复杂度、资源消耗、迁移任务训练数据可用性和任务性能之间的关系。作者发现句子嵌入迁移学习通常优于单词级别的迁移,并可以在极少量监督训练数据的情况下实现出人意料的良好表现。
Mar, 2018
该研究介绍了一种以单个 BiLSTM 编码器为基础的多语言句子表示架构,其使用共享的 BPE 词汇表来学习 93 种语言的嵌入表示,并在公开可用的平行语料库上进行了训练。使用英文注释数据进行分类器训练,可将其转移至任何一种语言,且可以在跨语言自然语言推理、文档分类和平行语料库挖掘中取得良好效果。
Dec, 2018
通过系统实证分析,我们发现预训练的最新型多语言编码器并不能显著超越早期基于跨语言单词嵌入的模型在无监督文档级和句子级交叉语言信息检索方面的性能,但在经过监督学习优化的条件下,可在句子检索中取得最高准确率,并通过局部相关性匹配和对特定领域对比微调等方法最大程度提升排名质量,还揭示了基于单语数据训练的检索模型会出现 “单语过度拟合” 的现象,这与针对特定目标语言的单语信息检索的交叉语言转移存在显著差异。
Dec, 2021
本研究旨在通过探究多种单语和跨语言表示学习方法,如掩码语言建模,翻译语言建模和双编码器翻译排名等,结合预训练的多语言模型来学习多语言句子嵌入,并成功将其用于多语言文本检索和机器翻译任务中。
Jul, 2020
本文提出了一种无需人工标注的数据集构建方法,使用双语文本语料来 fine-tune Transformer 语言模型,并加入一个循环池层构建出有效的特定语种句子编码器,该方法在单张图形卡上使用不到一天时间训练,在波兰语的八个语言任务上实现了高性能,超越了最好的多语言句子编码器。
Jul, 2022
探索了一种使用双编码器学习跨语言句子表示的自然环境,以克服多语言神经语言建模中标记化非英语数据的缺乏,并在许多单语、跨语言、零样本 / 少样本学习任务上对跨语言表示进行了全面评估,并分析了不同的跨语言嵌入空间。
Oct, 2018
本文提出了一种多模态学习的编码器 - 解码器模型,学习图像和文本的多模态联合嵌入空间和现代语言模型。使用 LSTM 进行句子编码,该模型在 Flickr8K 和 Flickr30K 数据集上表现出色。同时,该模型通过线性编码器捕捉到了空间算术中的多模态规律。
Nov, 2014
本文提出了一种基于变分概率框架的深度潜变量模型,使用双语数据,利用拥有共性的语义信息与特性进行训练,使模型可以将并行语句进行源分离,得到隐含的语义向量,进而对单语数据进行预测。实验证明,该方法在无监督语义相似性评估方面的表现明显优于现有方法,并且还能在不适合使用简单词语重叠作为相似性指标的更难评估子集中发挥最大的作用。
Nov, 2019
本研究提出了一种使用双向双编码器和加性边际 softmax 学习多语言句子嵌入的方法,能够在联合国 (UN) 平行语料库检索任务上取得最先进的结果,并使用检索到的语言对训练 NMT 模型。通过对我们的句子嵌入平均构建的简单文档级别嵌入进行实验,能在 UN 文档级别检索任务中取得 97% 以上的 P@1。最后,我们在 BUCC 挖掘任务上评估了所提出的模型,利用原始余弦相似度得分的学习嵌入与当前最先进的模型相比取得了有竞争力的结果,并利用第二阶段的评分器在此任务上实现了新的最先进水平。
Feb, 2019
大语言模型(LLM)革命中,嵌入是各种系统的关键组成部分。在本文中,我们迈出了迈向构建强大统一的嵌入模型的第一步,证明了多种语言(自然语言和编程语言)的预训练变换器解码器在有限英文数据微调后能够实现普遍嵌入。我们对各任务进行了全面实践和彻底评估,结果表明这是一条有希望的道路,可以应用于不同任务和语言。
Oct, 2023