超越微调：少样本句子嵌入传递

ACLApr, 2020

Beyond Fine-tuning: Few-Sample Sentence Embedding Transfer

Siddhant Garg, Rohit Kumar Sharma, Yingyu Liang

TL;DR本文提出了一种方法，即将预训练模型的嵌入与目标数据的简单句子嵌入拼接起来，再对组合嵌入训练线性分类器。实验结果表明，与冻结嵌入模型权重的 fine-tuning 相比，采用该方法的分类性能更好。同时，理论分析和实验结果还表明，组合方法不如拼接方法有效。

Abstract

fine-tuning (FT) pre-trained sentence embedding models on small datasets has been shown to have limitations. In this paper we show that concatenating the embeddings from the pre-trained model with those from a si

fine-tuning pre-trained models embedding linear classifier nlp tasks

发现论文，激发创造

基于预训练句子嵌入的长文档分类的注意力机制

通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合，结合文档长度线性扩展的小的注意力层，我们得到了与当前最先进模型竞争力的结果，特别是在冻结底层 transformers 的情况下，有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。

Jul, 2023

通用句子编码器

本研究介绍了一种生成句子嵌入向量的模型，旨在实现到其他自然语言处理任务的迁移学习，并探讨了模型复杂度、资源消耗、迁移任务训练数据可用性和任务性能之间的关系。作者发现句子嵌入迁移学习通常优于单词级别的迁移，并可以在极少量监督训练数据的情况下实现出人意料的良好表现。

Mar, 2018

来自不同监督信号的句子嵌入的比较和组合

本文探讨了两种类型的句子嵌入方法对于语义文本相似度任务性能的影响，发现 fine-tunes 预训练语言模型在自然语言推断和单词预测任务中使用能够提高性能，而且将两种方法相结合能够比单个方法取得更好的效果。

Feb, 2022

科学文章句级嵌入的分类与聚类：对比学习生成

使用对比学习来微调句子 Transformer 模型，生成科学文章中的句子级嵌入，并将其用于科学文章中的句子分类任务，取得了显著的改进。

Mar, 2024

旅游中的情感分析：BERT 微调还是句子嵌入串接？

比较研究了 Fine-Tuning 的 Bidirectional Encoder Representations from Transformers 和一种将两个嵌入进行串联以提高堆叠的 Bidirectional Long Short-Term Memory-Bidirectional Gated Recurrent Units 模型性能的方法，将这两种方法应用于摩洛哥购物地点的情感分析，并在两种方法的学习率和最佳优化器之间进行了比较。

Dec, 2023

使用监督对比学习的句子嵌入

本文提出了一种使用对比学习进行监督学习 Fine-tuning 预训练 BERT 模型以创建高效句子嵌入的新方法，相比于只使用基于交叉熵的监督学习的当前最先进方法 SBERT，我们的方法可以在句子转换和语义文本相似度基准测试上改进 2.8％和 1.05％。

Jun, 2021

选择哪些高效的中间任务进行预训练？

通过 adapter fine-tuning 方法，有效地和高效地获取并选取 NLP 任务中的中间任务，从而在目标任务上实现更好的效果。

Apr, 2021

利用大型语言模型改进文本嵌入

通过使用合成数据和少于 1k 个训练步骤，我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同，我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据，我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明，我们的方法在高度竞争的文本嵌入基准上具有强大的性能，而不使用任何标记数据。此外，当用合成数据和标记数据的混合进行微调时，我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。

Dec, 2023

可轉移音素嵌入的少樣本跨語言語音合成

本文研究一种可转移的音位嵌入框架，旨在解决少样本跨语言语音合成问题。在 8 分钟以下数据提供的极少样本情况下，作者提出了包括基于音位 TTS 模型和码本模块在内的框架。通过利用音位级平均的自我监督学习特征，实现了合成语音质量的有效改进。实验证明，使用 30 秒左右数据就能够合成出可理解的说话声音。

Jun, 2022

少样本参数高效微调优于上下文学习且更为经济

通过比较 Few-shot in-context learning 和 Parameter-efficient fine-tuning 的方法，我们证明 PEFT 具有更好的精度和极低的计算成本。我们提出了一种名为 (IA)$^3$ 的新的 PEFT 方法，并提出了一个基于 T0 模型的简单配方，称为 T-Few，在没有任务特定调整或修改的情况下可以应用于新任务。我们在 RAF 基准测试中验证了 T-Few 的有效性，首次达到了超人类表现，并超越了现有技术的 6％。

May, 2022