神经网络捕捉类人语音识别的成功与关键失败
本文探讨使用不同领域的双语料库进行音频识别训练的数据增强方法,通过使用 Tacotron 合成语音的方式,来提升语音识别的性能。研究表明,使用合成材料进行数据增强可以实现对语音识别性能的提高,但是自然语音和合成语音训练识别器的性能仍有很大的差距。
Sep, 2019
开发出基于生理学的语音识别体系结构,通过深度学习框架进行端到端的梯度下降训练,揭示了中央尖峰神经网络中神经振荡的出现,通过测量交互网络层内部和层间的显著交叉频率耦合来处理语音,发现反馈机制的抑制作用对调节和同步神经活动以提高识别性能至关重要,进一步推动了对视听途径同步现象的理解,且架构具有动态和高效的信息处理能力,对神经形态技术具有重要意义。
Apr, 2024
通过对 SincNet 的研究,我们证实了端到端系统确实能够学习到已知的滤波器结构,但是我们还展示了更宽带的滤波器对已学习的结构也很重要,标准的机器学习架构需要被改进以允许这个过程被神经仿真。
Aug, 2022
本研究探讨了深度神经网络在处理时间依赖性信号方面的表现,结果显示语音模型会丢弃特定说话人的噪声信号,而保留与任务相关的语音和音素信息,并在后续层级中出现更高层次的概念表示,此外还展示了深度学习在不同时刻从输入中提取任务相关特征,以实现不变语音识别的能力。
Mar, 2020
在研究中,作者使用多种声学建模、语言建模技术将 LVCSR 系统评价指标降至 5.5%/10.3%,但验证后发现其仍低于人类表现水平,探讨了人类表现水平的定义及如何进一步降低语音识别误差率等问题。
Mar, 2017
该论文对视觉和语言领域中深度神经网络的最新架构、算法和系统进行了综述,并总结了在硬件限制平台上运行深度神经网络的主要挑战和最新进展,探讨了情感计算、智能交通和精准医学等领域中的新兴应用。
Aug, 2019
本文回顾了目前人类低级听觉处理的现有模型,并利用自学语言模型技术创建了新的人类听觉系统的先进模型。结果表明,与声学基线、音素特征和监督模型相比,来自自监督模型中间层的表示可以显著提高对听觉皮层的 fMRI 记录的预测性能,并且不同的听觉处理区域对信息的不同语言层次表现出偏好。
May, 2022
模拟了从计算模型中提取的表示进行的分析揭示了与大脑信号相似的时间动态,这表明这些特性可以在没有语言知识的情况下出现。此外,研究证明,声素的编码模式支持一定程度的跨语境概括,但我们发现这种概括的有效性取决于具体的语境,这表明单独的分析不足以支持存在语境无关编码。
May, 2024
研究使用自我监督的神经模型从语音中提取声学嵌入,计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异,并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。
Nov, 2020