多语言通用句子编码器用于语义检索

Jul, 2019

多语言通用句子编码器用于语义检索

Multilingual Universal Sentence Encoder for Semantic Retrieval

Yinfei Yang, Daniel Cer, Amin Ahmad, Mandy Guo, Jax Law...

TL;DR本文介绍了两种基于 Transformer 和 CNN 模型架构的预训练多语言句子编码模型，并使用基于翻译的桥接任务学习绑定表示将 16 种语言的文本嵌入到单一的语义空间中，以提高检索效率，与最先进的语义检索、翻译检索和检索问题回答模型相竞争，并在某些情况下超越了英文单语句子嵌入模型的表现水平。

Abstract

We introduce two pre-trained retrieval focused multilingual sentence encoding models, respectively based on the transformer and

multilingual sentence encoding transformer cnn dual-encoder

发现论文，激发创造

通用句子编码器

本研究介绍了一种生成句子嵌入向量的模型，旨在实现到其他自然语言处理任务的迁移学习，并探讨了模型复杂度、资源消耗、迁移任务训练数据可用性和任务性能之间的关系。作者发现句子嵌入迁移学习通常优于单词级别的迁移，并可以在极少量监督训练数据的情况下实现出人意料的良好表现。

Mar, 2018

用于零样本跨语言传递和更多应用的大规模多语句向量化技术

该研究介绍了一种以单个 BiLSTM 编码器为基础的多语言句子表示架构，其使用共享的 BPE 词汇表来学习 93 种语言的嵌入表示，并在公开可用的平行语料库上进行了训练。使用英文注释数据进行分类器训练，可将其转移至任何一种语言，且可以在跨语言自然语言推理、文档分类和平行语料库挖掘中取得良好效果。

Dec, 2018

多语言文本编码器在跨语言检索中的应用

通过系统实证分析，我们发现预训练的最新型多语言编码器并不能显著超越早期基于跨语言单词嵌入的模型在无监督文档级和句子级交叉语言信息检索方面的性能，但在经过监督学习优化的条件下，可在句子检索中取得最高准确率，并通过局部相关性匹配和对特定领域对比微调等方法最大程度提升排名质量，还揭示了基于单语数据训练的检索模型会出现 “单语过度拟合” 的现象，这与针对特定目标语言的单语信息检索的交叉语言转移存在显著差异。

Dec, 2021

语言无关的 BERT 句子嵌入

本研究旨在通过探究多种单语和跨语言表示学习方法，如掩码语言建模，翻译语言建模和双编码器翻译排名等，结合预训练的多语言模型来学习多语言句子嵌入，并成功将其用于多语言文本检索和机器翻译任务中。

Jul, 2020

从自动挖掘的同义句训练有效的神经句子编码器

本文提出了一种无需人工标注的数据集构建方法，使用双语文本语料来 fine-tune Transformer 语言模型，并加入一个循环池层构建出有效的特定语种句子编码器，该方法在单张图形卡上使用不到一天时间训练，在波兰语的八个语言任务上实现了高性能，超越了最好的多语言句子编码器。

Jul, 2022

多任务双编码器模型学习跨语言句子表示

探索了一种使用双编码器学习跨语言句子表示的自然环境，以克服多语言神经语言建模中标记化非英语数据的缺乏，并在许多单语、跨语言、零样本 / 少样本学习任务上对跨语言表示进行了全面评估，并分析了不同的跨语言嵌入空间。

Oct, 2018

多模态神经语言模型统一视觉 - 语义嵌入

本文提出了一种多模态学习的编码器 - 解码器模型，学习图像和文本的多模态联合嵌入空间和现代语言模型。使用 LSTM 进行句子编码，该模型在 Flickr8K 和 Flickr30K 数据集上表现出色。同时，该模型通过线性编码器捕捉到了空间算术中的多模态规律。

Nov, 2014

双语生成式 Transformer 用于语义句子嵌入

本文提出了一种基于变分概率框架的深度潜变量模型，使用双语数据，利用拥有共性的语义信息与特性进行训练，使模型可以将并行语句进行源分离，得到隐含的语义向量，进而对单语数据进行预测。实验证明，该方法在无监督语义相似性评估方面的表现明显优于现有方法，并且还能在不适合使用简单词语重叠作为相似性指标的更难评估子集中发挥最大的作用。

Nov, 2019

使用双向双编码器和加性边界 softmax 改进多语言句子嵌入

本研究提出了一种使用双向双编码器和加性边际 softmax 学习多语言句子嵌入的方法，能够在联合国 (UN) 平行语料库检索任务上取得最先进的结果，并使用检索到的语言对训练 NMT 模型。通过对我们的句子嵌入平均构建的简单文档级别嵌入进行实验，能在 UN 文档级别检索任务中取得 97% 以上的 P@1。最后，我们在 BUCC 挖掘任务上评估了所提出的模型，利用原始余弦相似度得分的学习嵌入与当前最先进的模型相比取得了有竞争力的结果，并利用第二阶段的评分器在此任务上实现了新的最先进水平。

Feb, 2019

语言模型是通用嵌入器

大语言模型（LLM）革命中，嵌入是各种系统的关键组成部分。在本文中，我们迈出了迈向构建强大统一的嵌入模型的第一步，证明了多种语言（自然语言和编程语言）的预训练变换器解码器在有限英文数据微调后能够实现普遍嵌入。我们对各任务进行了全面实践和彻底评估，结果表明这是一条有希望的道路，可以应用于不同任务和语言。

Oct, 2023