跨语言释义识别

Jun, 2024

Cross-lingual paraphrase identification

Inessa Fedorova, Aleksei Musatow

TL;DR通过对比式编码器模型在多语言环境下进行训练，实现检测多语言环境中的困难释义，得到可用于语义搜索等多种任务的嵌入向量，并在下游任务中评估模型性能和嵌入向量质量，与当前最先进的交叉编码器相比，在所选择的数据集中只有 7-10% 的最小相对下降，同时保持嵌入向量的良好质量。

Abstract

The paraphrase identification task involves measuring semantic similarity between two short sentences. It is a tricky task, and multilingual paraphrase identification is even more challenging. In this work, we train a bi-encoder model in a contrastive manner to detect hard paraphrases

paraphrase identification bi-encoder model multilingual paraphrase identification semantic search embedding space quality

发现论文，激发创造

来自平行翻译的简单有效的释义相似度

从双语语料中直接学习释义句子嵌入的模型和方法，有效消除创建释义文本体的耗时环节。进一步地，该模型可用于跨语言任务，其性能优于且比最先进的复杂基线算法快几个数量级。

Sep, 2019

从自动挖掘的同义句训练有效的神经句子编码器

本文提出了一种无需人工标注的数据集构建方法，使用双语文本语料来 fine-tune Transformer 语言模型，并加入一个循环池层构建出有效的特定语种句子编码器，该方法在单张图形卡上使用不到一天时间训练，在波兰语的八个语言任务上实现了高性能，超越了最好的多语言句子编码器。

Jul, 2022

从多语种句子编码器探究跨语言词汇知识

本文将多语言预训练模型转化为多语言句子编码器，通过对句子编码器进行探索，采用基于对比学习的简单而高效的方法，揭示了句子编码器隐含的跨语言词汇知识，进而提供了一种利用跨语言词汇的工具。

Apr, 2022

使用双语句子嵌入的有效并行语料库挖掘

该研究提出了一种有效的并行语料库挖掘方法，使用双语句子嵌入进行训练，通过引入硬负例来实现。该方法是基于语义相似度的，结果表明该方法可以用于重建平行文本，从而训练出 NMT 模型，与使用原始数据训练的模型相差不大。

Jul, 2018

对比学习的多语言表征蒸馏

该研究加入对比学习以蒸馏多语言表示，并用于平行语句的质量估计。实验证明，该方法在不同的资源稀少语言上显著优于先前的句子编码器，诸如 LASER 等。

Oct, 2022

从回译双语语料中学习复述句嵌入

本研究使用神经机器翻译通过回译双语句子对生成句子的解释，并对语料对进行了筛选处理，在此基础上建立通用的释义句子表示模型，结果显示该模型对于很多语言领域其正确率与手动编写的英语释义句子相当。

Jun, 2017

通过软对比学习改善多语言对齐

提出新的方法来对齐多语种嵌入，基于单语种嵌入模型中句子的相似性测量；实验证明我们的方法在多语种数据集上表现出色，优于现有的多语种嵌入方法和对比损失方法。

May, 2024

Trans-Encoder: 通过自我和相互蒸馏进行无监督句对建模

该研究提出了一种完全无监督学习的句子表示模型 Trans-Encoder，融合了 Bi-Encoder 和 Cross-Encoder 两种学习范式，在多个 benchmark 上表现优于现有的无监督句子编码器。

Sep, 2021

迁移微调：以 BERT 为例

通过将短语复述关系注入 BERT，可以在不增加模型大小的情况下获得适当的表示，即可提高语义等价性评估。通过标准自然语言理解任务的实验，证明这种方法在保持模型大小的同时，有效地改进了一个较小的 BERT 模型。生成的模型在语义等价性评估任务上表现优异，并在训练数据集有限的任务上实现了更大的性能提升，这是一种有利于迁移学习的属性。

Sep, 2019

多语言神经机器翻译中使用外语重述

本文介绍如何使用包含一致结构的训练数据作为语料库级别的释义，并将释义视为外语词汇进行 Neural Machine Translation 的训练。本方法表现出比过去的单词或短语级别的方法更好的效果，并且在使用多种语言的平行释义进行训练时表现最佳。该方法提高了翻译的 BLEU 分数，增加了词汇选择的熵和多样性。

Aug, 2018