使用句子编码器进行零样本多标签主题推理

Apr, 2023

使用句子编码器进行零样本多标签主题推理

Zero-Shot Multi-Label Topic Inference with Sentence Encoders

Souvika Sarkar, Dongji Feng, Shubhra Kanti Karmaker Santu

TL;DR利用句子编码器进行零样本主题推断任务时，Sentence-BERT 表现出与其他编码器相比的优越性能，而在效率是首要考虑因素时，通用句子编码器是首选；这一结论得到了对七个不同数据集的广泛实验的支持。

Abstract

sentence encoders have indeed been shown to achieve superior performances for many downstream text-mining tasks and, thus, claimed to be fairly general. Inspired by this, we performed a detailed study on how to l

sentence encoders zero-shot topic inference sentence-bert universal sentence encoder text-mining tasks

发现论文，激发创造

通用句子编码器

本研究介绍了一种生成句子嵌入向量的模型，旨在实现到其他自然语言处理任务的迁移学习，并探讨了模型复杂度、资源消耗、迁移任务训练数据可用性和任务性能之间的关系。作者发现句子嵌入迁移学习通常优于单词级别的迁移，并可以在极少量监督训练数据的情况下实现出人意料的良好表现。

Mar, 2018

句子编码器面临的令人望而却步的困境：在标准基准中取得成功，但无法捕捉基本的语义属性

在本研究中，我们采用回顾性方法，对比了 5 种现有的句子编码器，即 Sentence-BERT、Universal Sentence Encoder (USE)、LASER、InferSent 和 Doc2vec，在下游任务表现和捕获基本语义特征能力方面的表现。我们评估了这五种句子编码器在受欢迎的 SentEval 基准测试上的表现，发现多个句子编码器在各种受欢迎的下游任务上表现良好。然而，在所有情况下都没有找到一个单一的优胜者，因此，我们设计了进一步的实验来更深入地了解它们的行为。我们提出了四个语义评估标准：复述、同义词替换、反义词替换和句子混乱，并使用这些标准评估了同样的五种句子编码器。我们发现，Sentence-BERT 和 USE 模型通过了复述标准，其中 SBERT 在两者之间更为优越。在同义词替换标准方面，LASER 表现最佳。有趣的是，所有句子编码器都未通过反义词替换和句子混乱的标准。这些结果表明，尽管这些受欢迎的句子编码器在 SentEval 基准测试上表现良好，但它们仍然难以捕捉一些基本的语义特征，因此，在自然语言处理研究中面临严峻的困境。

Sep, 2023

使用句子转换器进行零样本文本匹配的自动审计

本文探讨了使用基于 transformer 的 Sentence-Bert 模型进行无监督文本匹配的效率，结果表明该模型对于金融领域内外的文本均有很好的鲁棒性。

Oct, 2022

多语言通用句子编码器用于语义检索

本文介绍了两种基于 Transformer 和 CNN 模型架构的预训练多语言句子编码模型，并使用基于翻译的桥接任务学习绑定表示将 16 种语言的文本嵌入到单一的语义空间中，以提高检索效率，与最先进的语义检索、翻译检索和检索问题回答模型相竞争，并在某些情况下超越了英文单语句子嵌入模型的表现水平。

Jul, 2019

基于 Transformer 的零样本序列标注句子分类器

本文研究了如何将句子级 transformer 修改为在没有任何直接监督的情况下有效的序列标记，我们发现一个软性注意模块可以明显优于现有方法，使得能够更好地在标记级别提高性能。

Mar, 2021

优化编码器以改进单语和零样本多语言神经主题建模

本研究提出多种 fine-tuning 编码器的方法，包括在辅助任务中 fine-tuning，构建新的主题分类任务，将主题分类目标直接整合到主题模型训练中，和继续预训练，实验证明在主题分类和主题模型中直接结合主题分类任务的编码器 fine-tuning 能够有效提高主题质量，同时对于跨语言转移来说，编码器 fine-tuning 是最重要的因素。

Apr, 2021

从自动挖掘的同义句训练有效的神经句子编码器

本文提出了一种无需人工标注的数据集构建方法，使用双语文本语料来 fine-tune Transformer 语言模型，并加入一个循环池层构建出有效的特定语种句子编码器，该方法在单张图形卡上使用不到一天时间训练，在波兰语的八个语言任务上实现了高性能，超越了最好的多语言句子编码器。

Jul, 2022

通过语句调整在编码模型上实现自然零样本提示

使用 Statement-Tuning 技术，通过对有限的陈述进行建模，训练一个编码器模型来确定标签，实现跨任务泛化，并展示相比于最先进的大型语言模型状态，Statement Tuning 具有竞争性能且参数更少，研究还探索了几个设计选择对少样本和零样本泛化的影响，揭示 Statement Tuning 能够在适度的训练数据下达到足够的性能，并从任务和陈述的多样性中获益，使得对未见任务的泛化性更好。

Apr, 2024

STILTS 上的句子编码器：对中间标签数据任务的补充训练

本文旨在探讨通过预训练句子编码器加语言建模和相关无监督任务，再加上富数据的有监督任务，如自然语言推断等方式进一步训练，可显著提高 GLUE 基准测试性能并降低随机重启的变异性，并证明该方法特别适用于数据受限制的条件下。

Nov, 2018

用于零样本跨语言传递和更多应用的大规模多语句向量化技术

该研究介绍了一种以单个 BiLSTM 编码器为基础的多语言句子表示架构，其使用共享的 BPE 词汇表来学习 93 种语言的嵌入表示，并在公开可用的平行语料库上进行了训练。使用英文注释数据进行分类器训练，可将其转移至任何一种语言，且可以在跨语言自然语言推理、文档分类和平行语料库挖掘中取得良好效果。

Dec, 2018