利用最近邻对比学习生成语音序列嵌入
本文提出一种新颖的声学单词嵌入,名为声学邻域嵌入,其中利用随机邻近嵌入(SNE)将任意长度的语音或文本映射到固定的、降维的向量空间中。通过训练两个编码器神经网络,它在神经网络训练中具有更有效的梯度,并在单词(名称)识别任务中显著提高了准确性,特别是在使用新的嵌入向量之间的欧几里德距离进行孤立名称识别任务时。
Jul, 2020
本文探讨了无监督自学习对偶损失模型(SSCL)的理论基础,提出了在随机邻居嵌入(SNE)视角下,使用数据增强构建 “正” 偶对实现了对输入空间对比度的优化,通过与 SNE 对应,进一步提供了方法学指导并证明了使用域不可知增强与隐式偏见得到的潜在优势,同时证明了从 SNE 到 t-SNE 转换的适用性并在实验中取得了相应的优化效果。
May, 2022
本文提出了一种通过对比学习来改善科学文档表示的方法 —— 使用引文图嵌入进行所控制的最近邻抽样来学习连续的相似度,内容主要涉及对比学习、科学文档表示、引文图嵌入、相似度语义以及相关研究。
Feb, 2022
在保留数据集邻近信息的范围内,我们将自监督对比方法扩展到完全监督的设置,以有效利用标签信息。属于同一类别的样本集群在低维嵌入空间中聚集在一起,同时将不同类别的样本集群推开。
Sep, 2023
本文提出了一种多模态多任务的 Transformer 模型,通过对句子和非语言数据对比学习的方式来提高句子编码器的性能,并在基准测试中获得了更高质量的语义文本相似性结果。
Sep, 2022
研究表明说话者嵌入包含有关情感的有价值信息,因此在情感识别中,利用有限的标记数据,说话者嵌入有潜力成为一种有前途的资源。通过进行彻底的聚类分析,研究人员发现了情感与最先进的说话者嵌入之间的直接且有用的联系。为了利用这些信息,他们引入了一种新颖的对比预训练方法,基于说话者嵌入的类内聚类样本来进行情感无标签数据的预训练,取得了显著的情感识别性能改善。
Jan, 2024
本文提出了一种使用对比学习进行监督学习 Fine-tuning 预训练 BERT 模型以创建高效句子嵌入的新方法,相比于只使用基于交叉熵的监督学习的当前最先进方法 SBERT,我们的方法可以在句子转换和语义文本相似度基准测试上改进 2.8%和 1.05%。
Jun, 2021
本研究通过使用预先训练的深度学习模型提取的语音嵌入,探索了使用 ECAPA-TDNN 和 Wav2Vec2.0 模型进行口吃检测任务的音频表示。相对于仅在有限 SEP-28k 数据集上训练的标准口吃检测系统,本研究在多个传统分类器上获得了 12.08%、28.71%、37.9%的相对改进并进一步证明结合两个嵌入和连接多个层的 Wav2Vec2.0 可进一步提高其性能。
Jun, 2023
我们提出的 Neighborhood-Enhanced Supervised Contrastive Loss (NESCL) 模型在三个真实数据集上, Yelp2018、Gowalla 和 Amazon-Book,相较于原始的 SGL 模型,在 NDCG@20 上分别提升了 10.09%、7.09% 和 35.36%。
Feb, 2024