利用 HuBERT 发现一种犬类语言的语音和词汇

Feb, 2024

利用 HuBERT 发现一种犬类语言的语音和词汇

Phonetic and Lexical Discovery of a Canine Language using HuBERT

Xingyuan Li, Sinong Wang, Zeyu Xie, Mengyue Wu, Kenny Q. Zhu

TL;DR研究了犬叫声中的潜在交流模式，采用了自监督方法 HuBERT，能够准确分类音素标签，并识别表明犬叫声中存在基本词汇的声音模式。发现这些识别出的犬词汇在观察到的犬叫声序列中具有显著的声学一致性，并开发了一个基于网络的犬叫声标注系统。

Abstract

This paper delves into the pioneering exploration of potential communication patterns within dog vocalizations and transcends traditional linguistic analysis barriers, which heavily relies on human priori knowledge on limited datasets to find sound units in dog vocalization. We present

dog vocalizations linguistic analysis self-supervised approach phoneme labels vocabulary

发现论文，激发创造

走向狗吠解码：利用人类语音处理进行自动狗吠分类

本文研究狗的声音，并探索利用在人类语音上预训练的自监督语音表示模型来解决狗吠分类任务，该任务与人类语音识别中的任务有相似之处。我们具体研究了狗的识别、品种鉴定、性别分类和语境关联四个任务，并表明使用语音嵌入表示可以显著改善简单分类基线。此外，我们还发现在几个任务中，预训练于大规模人类语音声学的模型可以提供额外的性能提升。

Apr, 2024

通过在线视频实现对犬叫声的词汇分析

通过将不同声音类型与一致语义相关联，本研究通过数据驱动的方法，解释了动物语言的语义特征。使用 YouTube 上以 Shiba Inu 为基础的数据集及上下文信息，对犬叫声与地点、活动之间的条件概率进行分析，验证了先前关于狗叫声语义含义的启发式研究，同时也提出了狗叫声中更细粒度的子类型，Shiba Inu 的最小语义单元与词有关。

Sep, 2023

多语音预训练中的语言通用语音表示法用于小资源语音识别

本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能，其中采用国际音标（IPA）多语言模型为无标签语音创建帧级伪标签，并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明，该方法在所有目标语言上均优于标准 HuBERT，并且在 3 种语言中表现更佳，同时最多能够节省 1.5k 小时（75%）有监督训练数据。

May, 2023

SD-HuBERT：自蒸馏在 HuBERT 中引发音节组织

在自监督学习中，通过基于数据的单元发现在语音处理领域迈入了新的阶段。本文展示了在学习语音的句子级表示中出现了音节组织。通过采用 “自蒸馏” 目标函数，在没有任何监督的情况下，对预训练的 HuBERT 进行微调，并添加一个汇总整个句子的聚合器标记。实验结果表明，该模型在语音中画定了明确的边界，并且帧之间的表示显示出显著的音节结构。此外，我们提出了一个用于评估语音句子级表示的新的基准任务，即 “Spoken Speech ABX”。与先前的模型相比，我们的模型在无监督音节发现和学习句子级表示方面表现出色。我们展示了 HuBERT 的自蒸馏能够产生音节组织，而不依赖外部标签或模态，并可能为口语语言建模提供新的、基于数据的单元。

Oct, 2023

改进特征的语音分割和词库学习再探

我们重新审视了一种自我监督的方法，将未标记的语音分割成类似词的段落。我们从两阶段的惩罚持续时间的动态规划方法开始，进行零资源分割，而无需学习明确的词汇表。在第一阶段的声学单元发现阶段，我们用 HuBERT 替换对比预测编码特征。在第二阶段的词语分割之后，我们通过平均 HuBERT 特征获得每个段落的声学词嵌入。使用 K-means 对这些嵌入进行聚类，以获得一个词汇表。结果是具有良好覆盖率的分割，其词汇表在 ZeroSpeech 基准测试中达到了最先进的性能。

Jan, 2024

基于视觉反馈的自监督语音模型中的词语发现

本文提出了一种可视化感知的口语术语探测方法，通过对自注意力头的训练与分析发现，在自然图像与口语字幕关联的模型中具有强大的单词分割和聚类能力，并在 Buckeye 单词分割和 ZeroSpeech 口语术语探测任务上超过了所有已发表的现有方法。

Mar, 2022

自监督语音模型探测音素和音位信息：以送气现象为案例研究

本文评估了自我监督语音模型的学习表示与人类语音的差异，结果表明这些模型在语音数据的优化和高维架构的帮助下成功地捕捉了语音的基本音素和音位特征，尤其是 speech-trained HuBERT 模型实现了抽象音位差异的低噪声和低维子空间。

Jun, 2023

我的狗和我之间的声学相关性

研究狗叫声与主人语言环境之间的相关性，利用 Shiba Inu 犬的数据集，通过分类任务和显著因素分析，发现两种语言环境下狗叫声的显著声学差异，并识别了一些潜在与它们主人语言模式相关的声学特征。

Sep, 2023

如犬相语：人类到非人类生物的声音转换

本文提出了从人类语音到狗狗语音的语音转换任务，并尝试使用 Mel-spectrogram 来保持狗狗语音的相似度。

Jun, 2022

汉英双语中，使用改进的装订器增强音像 HUBERT 的实践

该论文介绍了一种混合方法，名为 conformer-enhanced AV-HuBERT，该方法在语音识别方面的表现进一步提高。该方法基于 AV-HuBERT，在一个清洁和嘈杂环境下分别实现了相对 WER 降低 7％和 16％。除此之外，该论文还提出了一个新的 1000 小时的普通话语音识别数据集 CSTS，通过预先训练，该方法相对于基线 AV-HuBERT 超过了 WeNet ASR 系统。conformer-enhanced AV-HuBERT 相对于基线 AV-HuBERT 系统，在 MISP 和 CMLR 上分别减少了 7％和 6％的 CER。

Feb, 2023