使用卷积神经网络和上下文信息进行韵律事件识别

Jun, 2017

使用卷积神经网络和上下文信息进行韵律事件识别

Prosodic Event Recognition using Convolutional Neural Networks with Context Information

Sabrina Stehwien, Ngoc Thang Vu

TL;DR本文研究了卷积神经网络在检测和分类词汇上的韵律事件，包括音高强调和短语边界音调，作者说明加入当前词汇位置特征可以使卷积神经网络表现更好，并且将模型从单个发音者扩展到多个发音者的情况下性能依然较强。

Abstract

This paper demonstrates the potential of convolutional neural networks (CNN) for detecting and classifying prosodic events on words, specifically pitch accents and →

convolutional neural networks prosodic events pitch accents phrase boundary tones speaker-independent

发现论文，激发创造

利用自动预测的韵律信息来改进指代消解

本文介绍了利用卷积神经网络从语音信号的声学特征中提取的音高重音及语调信息对共指消解产生积极影响，并且通过自动预测声调信息的实验结果进一步支持了前人研究的结论。

Jul, 2017

卷积循环神经网络用于多声事件检测

本研究利用卷积神经网络 (CNN) 和循环神经网络 (RNN) 实现了声音事件监测，取得了比之前方法显著的效果提升。

Feb, 2017

使用卷积神经网络从弱标记音频进行知识转移，用于声音事件和场景

本研究提出了一种基于卷积神经网络的弱标记音频数据分类框架，可用于转移学习，并证明了该方法对于领域和任务适应都具有有效性，此外还展示了该方法有助于捕捉语义含义和关系。

Nov, 2017

具有 1-Max 池化卷积神经网络的强健音频事件识别

本研究提出了一种简单而高效的卷积神经网络（CNN）架构，用于鲁棒的音频事件识别，并采用变尺寸的卷积滤波器和 1-max 池化方案等创新特性，在标准的鲁棒音频事件识别任务上表现不但表现出最新技术水准，并且在识别准确率上优于其他深度网络架构 4.5％，相当于 76.3％的相对误差降低。

Apr, 2016

语音解析：一种神经方法用于集成词汇和声学 - 韵律信息

本文中，我们提出了一个模型，该模型使用卷积神经网络对能量和音高轨迹进行耦合，并使用基于注意力机制的循环神经网络，接受文本和韵律特征，并结合转录文本和声学 - 韵律特征，以自动解析口语话语，并发现不同类型的声学 - 韵律特征都有助于解析，对比一个强文本基线，该模型取得了显著的改进。错误分析表明，声学 - 韵律特征的主要优点在于有误流畅度的句子，附加决策得到最大的改进，文本转录错误掩盖了音韵的改进。

Apr, 2017

基于深度卷积神经网络的端到端语音识别

本文提出将 CNN 与 CTC 相结合的端到端语音识别框架，以实现序列标记；在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统，并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。

Jan, 2017

使用卷积神经网络从原始语音信号估计音素类条件概率

本文探究一种利用卷积神经网络（CNN），以原始语音信号作为输入、输出为音素类别条件概率估计的新方法，比较其在 TIMIT 音素识别任务中的表现，发现该方法可以获得与传统方法相当或更好的音素识别性能，表明 CNN 可以自动从原始语音信号中学习与音素分类相关的特征。

Apr, 2013

基于卷积神经网络的临床信息提取

本研究利用深度神经网络实现一个临床信息提取工具，该工具可以从原始的临床笔记和病理报告中标注事件跨度及其属性，并通过使用时间卷积神经网络和多层感知器来提高性能。

Mar, 2016

利用空间特征和卷积循环神经网络进行声音事件检测

本文提出使用从多通道音频中提取的低级空间特征进行声音事件检测，通过初始阶段从每个通道中单独学习这些多通道特征，扩展了卷积递归神经网络以处理更多类型的这些特征，并表明将特征呈现为体积的单独层，而不是将每个通道的特征串联成单个特征向量，可以更好地学习多通道音频中的声音事件。与单声道特征相比，在相同网络上使用所提出的空间特征，在公开可用的 TUT-SED 2016 数据集上的 F-score 提高了 6.1％，在 TUT-SED 2009 数据集上的 F-score 提高了 2.7％，该数据集是其 15 倍大。

Jun, 2017

面向文本独立说话人识别的帧级别说话人特征向量及端到端模型分析

本文提出了一种基于卷积神经网络（CNN）的说话人识别模型，可以提取鲁棒的说话者嵌入，并通过 TIMIT 数据集对其进行了训练和多个代理任务来研究网络在区分语音输入和声音身份方面的能力，其中发现该网络更擅长区分相似的语音类别而不是单个音素，这一帧级别的表示法还允许我们在帧级别上分析网络，并具有提高说话人识别的其他分析的潜力。

Sep, 2018