超越微调:少样本句子嵌入传递
通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合,结合文档长度线性扩展的小的注意力层,我们得到了与当前最先进模型竞争力的结果,特别是在冻结底层 transformers 的情况下,有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。
Jul, 2023
本研究介绍了一种生成句子嵌入向量的模型,旨在实现到其他自然语言处理任务的迁移学习,并探讨了模型复杂度、资源消耗、迁移任务训练数据可用性和任务性能之间的关系。作者发现句子嵌入迁移学习通常优于单词级别的迁移,并可以在极少量监督训练数据的情况下实现出人意料的良好表现。
Mar, 2018
本文探讨了两种类型的句子嵌入方法对于语义文本相似度任务性能的影响,发现 fine-tunes 预训练语言模型在自然语言推断和单词预测任务中使用能够提高性能,而且将两种方法相结合能够比单个方法取得更好的效果。
Feb, 2022
比较研究了 Fine-Tuning 的 Bidirectional Encoder Representations from Transformers 和一种将两个嵌入进行串联以提高堆叠的 Bidirectional Long Short-Term Memory-Bidirectional Gated Recurrent Units 模型性能的方法,将这两种方法应用于摩洛哥购物地点的情感分析,并在两种方法的学习率和最佳优化器之间进行了比较。
Dec, 2023
本文提出了一种使用对比学习进行监督学习 Fine-tuning 预训练 BERT 模型以创建高效句子嵌入的新方法,相比于只使用基于交叉熵的监督学习的当前最先进方法 SBERT,我们的方法可以在句子转换和语义文本相似度基准测试上改进 2.8%和 1.05%。
Jun, 2021
通过使用合成数据和少于 1k 个训练步骤,我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同,我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据,我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明,我们的方法在高度竞争的文本嵌入基准上具有强大的性能,而不使用任何标记数据。此外,当用合成数据和标记数据的混合进行微调时,我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。
Dec, 2023
本文研究一种可转移的音位嵌入框架,旨在解决少样本跨语言语音合成问题。在 8 分钟以下数据提供的极少样本情况下,作者提出了包括基于音位 TTS 模型和码本模块在内的框架。通过利用音位级平均的自我监督学习特征,实现了合成语音质量的有效改进。实验证明,使用 30 秒左右数据就能够合成出可理解的说话声音。
Jun, 2022
通过比较 Few-shot in-context learning 和 Parameter-efficient fine-tuning 的方法,我们证明 PEFT 具有更好的精度和极低的计算成本。我们提出了一种名为 (IA)$^3$ 的新的 PEFT 方法,并提出了一个基于 T0 模型的简单配方,称为 T-Few,在没有任务特定调整或修改的情况下可以应用于新任务。我们在 RAF 基准测试中验证了 T-Few 的有效性,首次达到了超人类表现,并超越了现有技术的 6%。
May, 2022