本文提出了一种多模态多任务的 Transformer 模型,通过对句子和非语言数据对比学习的方式来提高句子编码器的性能,并在基准测试中获得了更高质量的语义文本相似性结果。
Sep, 2022
介绍 SUPERB-SG - 一个新的基准测试, 用于评估预训练模型的语义和生成能力,并使用轻量级方法测试预训练模型所学习表示的鲁棒性,以更全面地了解模型的效果和通用性。
Mar, 2022
本文提出了一种新的 Label Aware Speech Representation (LASR) 方法,将自我监督表示学习与语言标签信息相结合,使用三元组目标函数将语言标签与自我监督损失函数结合起来,并进一步优化语音表示以适用于下游任务,发现该方法比现有的语言识别系统更为有效,并可应用于多语音识别任务。
Jun, 2023
本文针对未知说话人的 “开放式” 说话人识别问题,提出了一种度量学习的方法,该方法使用紧凑的嵌入来表示语音信息,并对最流行的损失函数进行了广泛评估,结果表明该方法优于现有的先进方法。
Mar, 2020
本文提出了一种名为 UniSpeech 的统一预训练方法,利用有标签和无标签数据学习语音表示,其中针对语音结构的有监督 CTC 学习和语音感知对比自监督学习以多任务学习的方式进行。实验结果表明,UniSpeech 在跨语言表征学习方面的有效性超过了自监督预训练和有监督转移学习。
Jan, 2021
本研究提出了一种改进内部嵌入空间和使用对比和非对比损失的适配器来处理类内差异的方法,并将其应用于情感分类问题,发现本方法在多个任务上均优于端到端微调基线,并超过最先进的情感分类基准。
Oct, 2022
本文介绍一种利用三元组损失和变种 kNN 方法,以及基于音韵相似性的三元组挖掘方法相结合的表示学习技术,显著提高卷积网络的分类准确率,特别在语音识别领域中。作者还在 Google 语音命令数据集 V1 和 V2 中刷新最佳 SOTA 并超过 50% 的准确率提升。
本研究提出了一个通用的语言表示学习方法 MiSAD,通过利用大型未标记语料库中提取的有意义的 n-gram,实现对不同层次语言单位或具有相当不同长度的文本的嵌入形式,从而使手头的多个语言层次的信息能够更好地统一处理,并且在 GLUE 基准和问答数据集上显著提高了下游任务的性能以及在不同语言层次上实现了最高准确率。
May, 2021
本论文综述了自监督语音表示学习的方法及其与其他研究领域的联系,讨论了将学习到的表示推广到语音识别以外的应用的最新研究进展。
May, 2022
通过使用语言模型的嵌入(ELMo)技术,提出了一种更快、更简单的无监督预训练方法 ELMo-Light(ELMoL),在大量未标记的句子上进行的无监督预训练,在语音识别任务上比从头开始训练或传统的有监督迁移学习方法表现更好,并且当域内的标记样本仅有 1000 个时,我们的技术可以匹配使用 10-15 倍更多标记的样本从头开始训练的性能。
Nov, 2018