- 无缝语言扩展:增强自监督模型中的多语言掌握能力
我们提出了通过将 LoRA 整合到已有的自我监督模型中,实现新语言的自适应,并通过数据结合和重新聚类等保护策略来保持对已有和新语言的性能保持完整,实验证明该方法使 mHuBERT 应用于新语言(普通话)的 MOS 值增加 1.6,WER 相 - 自我监督语音模型界面设计
提出了一种连接上游和下游模型的接口,通过使用卷积接口设计,其深度与上游模型的深度按对数比例计算,在许多任务上始终优于其他接口设计。
- 如何从自监督模型中提取离散音频标记?
这篇论文探讨了语义标记的最佳配置,提出了训练通用声码器的可扩展解决方案,并使用注意机制来提高语义标记在多种音频应用中的适应性和性能。
- 探索面向通用音频理解的联邦自监督学习
通过将联邦学习(FL)与自监督学习(SSL)相结合,可以在不损害用户数据隐私的情况下利用音频数据进行通用音频理解。本文评估了在大规模非独立同分布(non-iid)数据生成的情况下,将特征匹配和预测式音频自监督学习技术与 FL 相结合的性能, - 自我监督的语音和说话者模型学到了什么?来自跨模型逐层分析的新发现
该研究探索了自监督学习模型在捕捉语音和说话者表示方面的能力,并发现具体层次的语音模型更专注于捕捉语言信息,而说话者模型则更注重对说话者表示的提炼。
- 语音的自监督模型推断通用的发音机制
通过研究自监督学习模型,本文展示了模型对语音内部表征与不同方面的关联,以及模型将声学信息转化为语音信号基础的原因动力学的能力,同时发现这种抽象几乎在所有语言中都有重叠,尤其喜欢同一音韵系统的语言。此外,研究还表明使用简单仿射变换,声学到语音 - 自我监督的语音和语言模型是否能从人脑中提取相似的表示?
语言和语音模型在自监督学习过程中表现出与语音和语言感知过程中的脑活动的强烈一致性。本研究通过评估两个代表性的自监督学习模型 Wav2Vec2.0 和 GPT-2 的脑预测性能来直接回答这个问题。研究结果显示,两个模型都能准确预测听觉皮层中的 - 探索 DINO:合成孔径雷达图像的新特性与限制
通过使用非标记的合成孔径雷达(SAR)数据,预先训练自监督学习模型(ViT-based DINO 模型)并对其进行微调以预测高分辨率土地覆盖地图,本研究重点探究了 Self-Distillation with No Labels(DINO) - 语音自监督表示基准测试:我们做得对吗?
本文研究了自我监督学习在语音任务中的应用,特别是其在下游任务中的性能表现和解码器架构的影响。结果发现,使用不同的解码器架构可能会导致表现结果的显著变化,使用局限的解码器也可能会适得其反地增加 SSL 模型的大小。
- LowDINO -- 一个低参数的自监督学习模型
本研究旨在探索设计一种神经网络架构,使小型网络能够采用自监督学习中已显示出成功的大型网络的属性,用于图像分类、分割等所有下游任务。
- 无监督嵌入质量评估
研究了评估深度神经网络自监督学习中表示质量的多种方法,包括信息嵌入量、线性可分性等,通过实验结果发现了可以无监督评估嵌入质量的方法。
- 自我监督语音模型的有效蒸馏在自动语音识别中的应用探究
本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏,用于自动语音识别。我们进行了综合研究,设计了一种简单有效的算法,将参数减少 17%,将推理速度翻倍,同时又能在功能上达到满意的性能降级。
- SSL-WM: 一种应用于自监督学习预训练编码器的黑盒水印方案
本文提出了一种名为 SSL-WM 的黑盒数码水印技术,可在不知道下游任务的情况下,保护自我监督学习模型,实现对恶意盗用者的追踪以及知识产权的保护。