Trans-Encoder: 通过自我和相互蒸馏进行无监督句对建模
本文提出了一种新的神经网络编码器 ——Poly-encoder,它通过学习全局注意力特征来提高匹配任务的性能,并对三种常见的匹配方法进行了实验比较,得出了 Poly-encoder 相对于 Cross-encoder 和 Bi-encoder 都更快且更准确的结论,并强调了使用大数据集来进行预训练的重要性。
Apr, 2019
通过对比式编码器模型在多语言环境下进行训练,实现检测多语言环境中的困难释义,得到可用于语义搜索等多种任务的嵌入向量,并在下游任务中评估模型性能和嵌入向量质量,与当前最先进的交叉编码器相比,在所选择的数据集中只有 7-10% 的最小相对下降,同时保持嵌入向量的良好质量。
Jun, 2024
提出了一种名为 Augmented SBERT 的简单而高效的数据增强策略,用于改善句子配对的分数,基于双编码器的方法,并具有显着的性能提升,尤其是在领域适应任务上。
Oct, 2020
本文提出了一种无需人工标注的数据集构建方法,使用双语文本语料来 fine-tune Transformer 语言模型,并加入一个循环池层构建出有效的特定语种句子编码器,该方法在单张图形卡上使用不到一天时间训练,在波兰语的八个语言任务上实现了高性能,超越了最好的多语言句子编码器。
Jul, 2022
这篇论文提出了 Cross-Thought 方法用以预训练序列编码器,通过大规模的短序列训练 Transformer-based 序列编码器来自动选择对预测掩码词最有用的信息,用于大规模自然语言处理任务,如问答,文本推断等,实验结果表明,所提出的方法比传统基于连续句子信号的最新编码器以及传统掩码语言模型基线更加优秀,并打破了 HotpotQA (full-wiki setting) 的最新记录,取得了新的最高水平的中间信息检索表现。
Oct, 2020
本文提出了一种高效的 MixEncoder 范式,它包括一种轻量级的交叉关注机制,可以在快速计算的同时实现可比较的性能,大大加速了句子配对。
Oct, 2022
本文介绍了两种基于 Transformer 和 CNN 模型架构的预训练多语言句子编码模型,并使用基于翻译的桥接任务学习绑定表示将 16 种语言的文本嵌入到单一的语义空间中,以提高检索效率,与最先进的语义检索、翻译检索和检索问题回答模型相竞争,并在某些情况下超越了英文单语句子嵌入模型的表现水平。
Jul, 2019
提出了一种简单且新颖的无监督方法,利用深度学习多语言编码器结合机器翻译器对知识图谱文本进行编码,同时考虑全局与局部对齐策略,并生成排名匹配结果。在跨语言实体对齐任务上,我们的方法在 DBP15K 数据集中的中文、日文和法文到英文对齐任务中得到了较高的准确率,超过了无监督和半监督类别的最新方法。与最新的有监督方法相比,在日文到英文和法文到英文对齐任务中,我们的方法分别提高了 2.6% 和 0.4%,在中文到英文对齐任务中略微降低了 0.2%。
Sep, 2023
本文提出了一种新颖的蒸馏方法,将自然语言处理模型中的交互信息更好地应用于开放领域的问答问题,并通过级联蒸馏方法优化成绩,从而在 Open-Domain QA 基准上取得了优于强基线模型的最优结果。
May, 2022