我的狗和我之间的声学相关性

Sep, 2023

Does My Dog ''Speak'' Like Me? The Acoustic Correlation between Pet Dogs and Their Human Owners

Jieyi Huang, Chunhao Zhang, Yufei Wang, Mengyue Wu, Kenny Zhu

TL;DR研究狗叫声与主人语言环境之间的相关性，利用 Shiba Inu 犬的数据集，通过分类任务和显著因素分析，发现两种语言环境下狗叫声的显著声学差异，并识别了一些潜在与它们主人语言模式相关的声学特征。

Abstract

How hosts language influence their pets' vocalization is an interesting yet underexplored problem. This paper presents a preliminary investigation into the possible →

hosts language pets' vocalization correlation shiba inu dog vocals acoustic features

发现论文，激发创造

通过在线视频实现对犬叫声的词汇分析

通过将不同声音类型与一致语义相关联，本研究通过数据驱动的方法，解释了动物语言的语义特征。使用 YouTube 上以 Shiba Inu 为基础的数据集及上下文信息，对犬叫声与地点、活动之间的条件概率进行分析，验证了先前关于狗叫声语义含义的启发式研究，同时也提出了狗叫声中更细粒度的子类型，Shiba Inu 的最小语义单元与词有关。

Sep, 2023

走向狗吠解码：利用人类语音处理进行自动狗吠分类

本文研究狗的声音，并探索利用在人类语音上预训练的自监督语音表示模型来解决狗吠分类任务，该任务与人类语音识别中的任务有相似之处。我们具体研究了狗的识别、品种鉴定、性别分类和语境关联四个任务，并表明使用语音嵌入表示可以显著改善简单分类基线。此外，我们还发现在几个任务中，预训练于大规模人类语音声学的模型可以提供额外的性能提升。

Apr, 2024

利用 HuBERT 发现一种犬类语言的语音和词汇

研究了犬叫声中的潜在交流模式，采用了自监督方法 HuBERT，能够准确分类音素标签，并识别表明犬叫声中存在基本词汇的声音模式。发现这些识别出的犬词汇在观察到的犬叫声序列中具有显著的声学一致性，并开发了一个基于网络的犬叫声标注系统。

Feb, 2024

如犬相语：人类到非人类生物的声音转换

本文提出了从人类语音到狗狗语音的语音转换任务，并尝试使用 Mel-spectrogram 来保持狗狗语音的相似度。

Jun, 2022

具备人类语言监督的可转移生物声学模型

利用无损声学监测方法追踪全球生物多样性和人类活动对物种的影响，在此工作中，我们提出了一种基于对比语音 - 音频预训练的生物声学模型 BioLingual，该模型能够跨类别识别超过一千种动物的叫声并通过自然语言查询检索动物语音记录。

Aug, 2023

印地语和英语言语中的攻击性：声学相关性和自动识别

本文提供了一项声学分析的研究，旨在讨论政治言论中的声学特征，以及利用该研究开发出的用于识别英语和印地语言中侵略性的自动分类系统。我们训练的分类器使用了超过 50 小时的注释语音，已经取得了超过 73% 到 66% 不同的准确率，在此我们还将讨论分类器的误差。

Apr, 2022

跨语言声学 - 语音相似度对多语种语音识别的影响研究

本文提出了一种新的数据驱动方法来研究跨语音识别方案中的跨语言声学语音相似性，通过训练深度神经网络来将来自不同声音模型的分布转化为可直接比较的形式，并通过熵分析发现少重叠语音的语言更易于跨语言传输，在融合单语言模型方面取得了相对于单语言识别的 8％的改进。

Jul, 2022

歌词和声学对情绪协作理解的贡献

本研究通过使用 Spotify 音乐流媒体平台用户播放列表推导出的情绪和近一百万首歌曲的数据集，利用基于 transformers 的最先进的自然语言处理模型，研究了歌词和情绪之间的关联。研究表明，预训练的 transformer-based 语言模型在零 - shot 场景下能够强大地捕捉到歌曲情绪的关联。此外，通过比较使用歌词和使用声学特征的模型的预测，我们观察到，相对于声学，歌词对情绪的预测具有不同的重要性，从而验证了模型是否捕捉了人类对歌词和声学的情绪相关性的相同信息。

May, 2022

用有限资源通过声学手段量化语言变异

本研究通过 wav2vec 2.0 模型中提取的嵌入来区分多达 100 种荷兰四种方言的发音差异，结果表明，基于声学模型的方法优于基于电话转录的方法，且 XLSR-53 模型在荷兰方言的微调后表现最佳，仅仅利用六秒的语音，即可得到与实际情况吻合的聚类。

May, 2022

人工智能对人类语言起源的启示

研究人工智能和声音象征主义之间的结合，以及机器学习算法在训练中的偏向性和错误管理理论的假设，在中日韩宝可梦的名称中观察分类误差分布。

Jan, 2023