Jan, 2024

语音韵律的声学表征:利用递归神经网络超越度量

TL;DR通过深度学习,我们在大量语音记录的数据库上训练了一个中型递归神经网络,用于语言识别任务。网络能够在 40% 的情况下正确识别出 10 秒的语音记录的语言,并且在三分之二的情况下将语言排在前三名。可视化方法显示,从网络激活中构建的表示与语音节奏的分类系统一致,尽管得到的映射比重音节和音节定时语言之间的两个分离簇更复杂。通过识别网络激活与已知语音节奏度量之间的相关性,我们进一步分析了模型。这些发现展示了深度学习工具通过识别和探索与语言相关的声学特征空间,推动我们对语音节奏的认识的潜力。