利用 HuBERT 发现一种犬类语言的语音和词汇
本文研究狗的声音,并探索利用在人类语音上预训练的自监督语音表示模型来解决狗吠分类任务,该任务与人类语音识别中的任务有相似之处。我们具体研究了狗的识别、品种鉴定、性别分类和语境关联四个任务,并表明使用语音嵌入表示可以显著改善简单分类基线。此外,我们还发现在几个任务中,预训练于大规模人类语音声学的模型可以提供额外的性能提升。
Apr, 2024
通过将不同声音类型与一致语义相关联,本研究通过数据驱动的方法,解释了动物语言的语义特征。使用 YouTube 上以 Shiba Inu 为基础的数据集及上下文信息,对犬叫声与地点、活动之间的条件概率进行分析,验证了先前关于狗叫声语义含义的启发式研究,同时也提出了狗叫声中更细粒度的子类型,Shiba Inu 的最小语义单元与词有关。
Sep, 2023
本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能,其中采用国际音标(IPA)多语言模型为无标签语音创建帧级伪标签,并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明,该方法在所有目标语言上均优于标准 HuBERT,并且在 3 种语言中表现更佳,同时最多能够节省 1.5k 小时(75%)有监督训练数据。
May, 2023
在自监督学习中,通过基于数据的单元发现在语音处理领域迈入了新的阶段。本文展示了在学习语音的句子级表示中出现了音节组织。通过采用 “自蒸馏” 目标函数,在没有任何监督的情况下,对预训练的 HuBERT 进行微调,并添加一个汇总整个句子的聚合器标记。实验结果表明,该模型在语音中画定了明确的边界,并且帧之间的表示显示出显著的音节结构。此外,我们提出了一个用于评估语音句子级表示的新的基准任务,即 “Spoken Speech ABX”。与先前的模型相比,我们的模型在无监督音节发现和学习句子级表示方面表现出色。我们展示了 HuBERT 的自蒸馏能够产生音节组织,而不依赖外部标签或模态,并可能为口语语言建模提供新的、基于数据的单元。
Oct, 2023
我们重新审视了一种自我监督的方法,将未标记的语音分割成类似词的段落。我们从两阶段的惩罚持续时间的动态规划方法开始,进行零资源分割,而无需学习明确的词汇表。在第一阶段的声学单元发现阶段,我们用 HuBERT 替换对比预测编码特征。在第二阶段的词语分割之后,我们通过平均 HuBERT 特征获得每个段落的声学词嵌入。使用 K-means 对这些嵌入进行聚类,以获得一个词汇表。结果是具有良好覆盖率的分割,其词汇表在 ZeroSpeech 基准测试中达到了最先进的性能。
Jan, 2024
本文提出了一种可视化感知的口语术语探测方法,通过对自注意力头的训练与分析发现,在自然图像与口语字幕关联的模型中具有强大的单词分割和聚类能力,并在 Buckeye 单词分割和 ZeroSpeech 口语术语探测任务上超过了所有已发表的现有方法。
Mar, 2022
本文评估了自我监督语音模型的学习表示与人类语音的差异,结果表明这些模型在语音数据的优化和高维架构的帮助下成功地捕捉了语音的基本音素和音位特征,尤其是 speech-trained HuBERT 模型实现了抽象音位差异的低噪声和低维子空间。
Jun, 2023
研究狗叫声与主人语言环境之间的相关性,利用 Shiba Inu 犬的数据集,通过分类任务和显著因素分析,发现两种语言环境下狗叫声的显著声学差异,并识别了一些潜在与它们主人语言模式相关的声学特征。
Sep, 2023
该论文介绍了一种混合方法,名为 conformer-enhanced AV-HuBERT,该方法在语音识别方面的表现进一步提高。该方法基于 AV-HuBERT,在一个清洁和嘈杂环境下分别实现了相对 WER 降低 7%和 16%。除此之外,该论文还提出了一个新的 1000 小时的普通话语音识别数据集 CSTS,通过预先训练,该方法相对于基线 AV-HuBERT 超过了 WeNet ASR 系统。conformer-enhanced AV-HuBERT 相对于基线 AV-HuBERT 系统,在 MISP 和 CMLR 上分别减少了 7%和 6%的 CER。
Feb, 2023