使用句子编码器进行零样本多标签主题推理
本研究介绍了一种生成句子嵌入向量的模型,旨在实现到其他自然语言处理任务的迁移学习,并探讨了模型复杂度、资源消耗、迁移任务训练数据可用性和任务性能之间的关系。作者发现句子嵌入迁移学习通常优于单词级别的迁移,并可以在极少量监督训练数据的情况下实现出人意料的良好表现。
Mar, 2018
在本研究中,我们采用回顾性方法,对比了 5 种现有的句子编码器,即 Sentence-BERT、Universal Sentence Encoder (USE)、LASER、InferSent 和 Doc2vec,在下游任务表现和捕获基本语义特征能力方面的表现。我们评估了这五种句子编码器在受欢迎的 SentEval 基准测试上的表现,发现多个句子编码器在各种受欢迎的下游任务上表现良好。然而,在所有情况下都没有找到一个单一的优胜者,因此,我们设计了进一步的实验来更深入地了解它们的行为。我们提出了四个语义评估标准:复述、同义词替换、反义词替换和句子混乱,并使用这些标准评估了同样的五种句子编码器。我们发现,Sentence-BERT 和 USE 模型通过了复述标准,其中 SBERT 在两者之间更为优越。在同义词替换标准方面,LASER 表现最佳。有趣的是,所有句子编码器都未通过反义词替换和句子混乱的标准。这些结果表明,尽管这些受欢迎的句子编码器在 SentEval 基准测试上表现良好,但它们仍然难以捕捉一些基本的语义特征,因此,在自然语言处理研究中面临严峻的困境。
Sep, 2023
本文探讨了使用基于 transformer 的 Sentence-Bert 模型进行无监督文本匹配的效率,结果表明该模型对于金融领域内外的文本均有很好的鲁棒性。
Oct, 2022
本文介绍了两种基于 Transformer 和 CNN 模型架构的预训练多语言句子编码模型,并使用基于翻译的桥接任务学习绑定表示将 16 种语言的文本嵌入到单一的语义空间中,以提高检索效率,与最先进的语义检索、翻译检索和检索问题回答模型相竞争,并在某些情况下超越了英文单语句子嵌入模型的表现水平。
Jul, 2019
本文研究了如何将句子级 transformer 修改为在没有任何直接监督的情况下有效的序列标记,我们发现一个软性注意模块可以明显优于现有方法,使得能够更好地在标记级别提高性能。
Mar, 2021
本研究提出多种 fine-tuning 编码器的方法,包括在辅助任务中 fine-tuning,构建新的主题分类任务,将主题分类目标直接整合到主题模型训练中,和继续预训练,实验证明在主题分类和主题模型中直接结合主题分类任务的编码器 fine-tuning 能够有效提高主题质量,同时对于跨语言转移来说,编码器 fine-tuning 是最重要的因素。
Apr, 2021
本文提出了一种无需人工标注的数据集构建方法,使用双语文本语料来 fine-tune Transformer 语言模型,并加入一个循环池层构建出有效的特定语种句子编码器,该方法在单张图形卡上使用不到一天时间训练,在波兰语的八个语言任务上实现了高性能,超越了最好的多语言句子编码器。
Jul, 2022
使用 Statement-Tuning 技术,通过对有限的陈述进行建模,训练一个编码器模型来确定标签,实现跨任务泛化,并展示相比于最先进的大型语言模型状态,Statement Tuning 具有竞争性能且参数更少,研究还探索了几个设计选择对少样本和零样本泛化的影响,揭示 Statement Tuning 能够在适度的训练数据下达到足够的性能,并从任务和陈述的多样性中获益,使得对未见任务的泛化性更好。
Apr, 2024
本文旨在探讨通过预训练句子编码器加语言建模和相关无监督任务,再加上富数据的有监督任务,如自然语言推断等方式进一步训练,可显著提高 GLUE 基准测试性能并降低随机重启的变异性,并证明该方法特别适用于数据受限制的条件下。
Nov, 2018
该研究介绍了一种以单个 BiLSTM 编码器为基础的多语言句子表示架构,其使用共享的 BPE 词汇表来学习 93 种语言的嵌入表示,并在公开可用的平行语料库上进行了训练。使用英文注释数据进行分类器训练,可将其转移至任何一种语言,且可以在跨语言自然语言推理、文档分类和平行语料库挖掘中取得良好效果。
Dec, 2018