语音韵律的声学表征：利用递归神经网络超越度量

Jan, 2024

语音韵律的声学表征：利用递归神经网络超越度量

Acoustic characterization of speech rhythm: going beyond metrics with recurrent neural networks

François Deloche, Laurent Bonnasse-Gahot, Judit Gervain

TL;DR通过深度学习，我们在大量语音记录的数据库上训练了一个中型递归神经网络，用于语言识别任务。网络能够在 40% 的情况下正确识别出 10 秒的语音记录的语言，并且在三分之二的情况下将语言排在前三名。可视化方法显示，从网络激活中构建的表示与语音节奏的分类系统一致，尽管得到的映射比重音节和音节定时语言之间的两个分离簇更复杂。通过识别网络激活与已知语音节奏度量之间的相关性，我们进一步分析了模型。这些发现展示了深度学习工具通过识别和探索与语言相关的声学特征空间，推动我们对语音节奏的认识的潜力。

Abstract

Languages have long been described according to their perceived rhythmic attributes. The associated typologies are of interest in psycholinguistics as they partly predict newborns' abilities to discriminate between languages and provide insights into how adult listeners process non-native languages. Despite the relative success of rhythm metrics in supportin

speech rhythm deep learning acoustic bases language identification linguistically relevant acoustic feature spaces

发现论文，激发创造

基于特征和神经网络扫描诗歌的比较

本文研究了英语和西班牙语诗歌韵律的计算机自动分析，证明了基于字符的神经模型学习的表示比手工特征更为信息丰富，并且 Bi-LSTM+CRF 模型在诗歌节奏分析方面有着最高的准确率，同时说明整个词结构而不是单独音节的信息对诗歌节奏分析至关重要。

Nov, 2017

基于深度学习的声学模型最新进展（更新）

本文总结了基于深度学习的声学模型最近取得的进展和技术的动机和见解，讨论了可以有效利用可变长度上下文信息的语音识别模型，如 RNN、CNN 及其与其他模型的组合，以及优化了端对端性能的声学模型和鲁棒性训练策略，同时讨论了语音增强和分离等建模技术。

Apr, 2018

计算归纳韵律结构

本文主要研究语音节奏（prosody）的语法问题，提出了一种基于从低频信号中推导出的语音节奏结构的归纳方法，即 Rhythm Formant Theory 和 Rhythm Formant Analysis 方法，并以朗读的汉语为例，探究了汉语和英语的差异，并得出结论：语言内部的基准化语音或语音对比对于语音的差异性过于简单，需要从物理信号中的语音节奏来研究语音的差异以找到更加准确的结果。

Dec, 2019

声音转换的节奏建模

本文介绍了一种无监督学习的方法 ——Urhythmic，此方法用于转换语音节奏，通过时间拉伸的方式实现源言语音节奏与目标言语音节奏的匹配，实验表明，Urhythmic 在语音转换中具有更好的无监督学习特性和合成质量。

Jul, 2023

基于语音韵律从音素和音素时长中提取说话人嵌入的多说话人语音合成

该论文提出了一种基于语音节奏的说话者嵌入方法，用于使用目标说话者的少量话语对音素持续时间进行建模。

Feb, 2024

分析分析方法：口语神经模型中语音学的案例

本文探讨了使用诊断分类器和表征相似性分析两种分析技术来衡量神经网络模型中语音学的表现，并研究了两个因素对分析结果的影响，最终得出全局范围方法往往提供更一致的结果且应作为本地范围方法的补充。

Apr, 2020

深度循环神经网络语音识别

本文研究了将深度网络的多层表示与强大的 RNN 模型相结合的模型 - 深度递归神经网络，通过合适的正则化和端到端的训练方法，该模型在 TIMIT 语音识别基准测试中获得了最佳记录得分 17.7％。

Mar, 2013

分析端到端自动语音识别系统中的隐藏表示

本文分析了基于卷积和循环层、使用连结时序分类（CTC）损失函数训练的深度端到端模型所学习的语音表示，并评估模型不同层次的表示在预测电话标签方面的质量，以此为基础探讨了端到端模型的重要方面和设计选择。

Sep, 2017

快速准确的循环神经网络语音识别声学模型

该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究，并探讨了直接输出单词的 LSTM RNN 模型的初步结果。

Jul, 2015

探究神经网络语音模型中自动语音识别系统所编码的信息

通过神经网络的层级表达，在多个任务中评估自动语音识别声学模型的性能变化和目标任务，我们可以推测哪些信息在不同层次的架构步骤中得到强化或干扰。分析结果显示，基于神经网络的声学模型拥有异质信息，似乎与音素识别没有相关性，例如情感、情绪或说话人身份，而低层隐藏层总体上对信息结构有用，而上层则倾向于删除对音素识别无用的信息。

Feb, 2024