我的狗和我之间的声学相关性
通过将不同声音类型与一致语义相关联,本研究通过数据驱动的方法,解释了动物语言的语义特征。使用 YouTube 上以 Shiba Inu 为基础的数据集及上下文信息,对犬叫声与地点、活动之间的条件概率进行分析,验证了先前关于狗叫声语义含义的启发式研究,同时也提出了狗叫声中更细粒度的子类型,Shiba Inu 的最小语义单元与词有关。
Sep, 2023
本文研究狗的声音,并探索利用在人类语音上预训练的自监督语音表示模型来解决狗吠分类任务,该任务与人类语音识别中的任务有相似之处。我们具体研究了狗的识别、品种鉴定、性别分类和语境关联四个任务,并表明使用语音嵌入表示可以显著改善简单分类基线。此外,我们还发现在几个任务中,预训练于大规模人类语音声学的模型可以提供额外的性能提升。
Apr, 2024
研究了犬叫声中的潜在交流模式,采用了自监督方法 HuBERT,能够准确分类音素标签,并识别表明犬叫声中存在基本词汇的声音模式。发现这些识别出的犬词汇在观察到的犬叫声序列中具有显著的声学一致性,并开发了一个基于网络的犬叫声标注系统。
Feb, 2024
利用无损声学监测方法追踪全球生物多样性和人类活动对物种的影响,在此工作中,我们提出了一种基于对比语音 - 音频预训练的生物声学模型 BioLingual,该模型能够跨类别识别超过一千种动物的叫声并通过自然语言查询检索动物语音记录。
Aug, 2023
本文提供了一项声学分析的研究,旨在讨论政治言论中的声学特征,以及利用该研究开发出的用于识别英语和印地语言中侵略性的自动分类系统。我们训练的分类器使用了超过 50 小时的注释语音,已经取得了超过 73% 到 66% 不同的准确率,在此我们还将讨论分类器的误差。
Apr, 2022
本文提出了一种新的数据驱动方法来研究跨语音识别方案中的跨语言声学语音相似性,通过训练深度神经网络来将来自不同声音模型的分布转化为可直接比较的形式,并通过熵分析发现少重叠语音的语言更易于跨语言传输,在融合单语言模型方面取得了相对于单语言识别的 8%的改进。
Jul, 2022
本研究通过使用 Spotify 音乐流媒体平台用户播放列表推导出的情绪和近一百万首歌曲的数据集,利用基于 transformers 的最先进的自然语言处理模型,研究了歌词和情绪之间的关联。研究表明,预训练的 transformer-based 语言模型在零 - shot 场景下能够强大地捕捉到歌曲情绪的关联。 此外,通过比较使用歌词和使用声学特征的模型的预测,我们观察到,相对于声学,歌词对情绪的预测具有不同的重要性,从而验证了模型是否捕捉了人类对歌词和声学的情绪相关性的相同信息。
May, 2022
本研究通过 wav2vec 2.0 模型中提取的嵌入来区分多达 100 种荷兰四种方言的发音差异,结果表明,基于声学模型的方法优于基于电话转录的方法,且 XLSR-53 模型在荷兰方言的微调后表现最佳,仅仅利用六秒的语音,即可得到与实际情况吻合的聚类。
May, 2022