神经网络捕捉类人语音识别的成功与关键失败

Apr, 2022

神经网络捕捉类人语音识别的成功与关键失败

Successes and critical failures of neural networks in capturing human-like speech recognition

Federico Adolfi, Jeffrey S. Bowers, David Poeppel

TL;DR本研究通过实验，评估了最先进的神经网络作为 “可计算的、优化的观察者” 在语音识别方面的表现，并发现了人类和人类机理学习中的不同之处，为听觉认知科学和工程之间建立更紧密的联系提供了启示。

Abstract

Natural and artificial audition can in principle acquire different solutions to a given problem. The constraints of the task, however, can nudge the cognitive science and →

audition cognitive science engineering neural networks speech recognition

发现论文，激发创造

增强合成语音的语音识别

本文探讨使用不同领域的双语料库进行音频识别训练的数据增强方法，通过使用 Tacotron 合成语音的方式，来提升语音识别的性能。研究表明，使用合成材料进行数据增强可以实现对语音识别性能的提高，但是自然语音和合成语音训练识别器的性能仍有很大的差距。

Sep, 2019

通过替代性梯度尖峰神经网络探索言语知觉中的神经振荡

开发出基于生理学的语音识别体系结构，通过深度学习框架进行端到端的梯度下降训练，揭示了中央尖峰神经网络中神经振荡的出现，通过测量交互网络层内部和层间的显著交叉频率耦合来处理语音，发现反馈机制的抑制作用对调节和同步神经活动以提高识别性能至关重要，进一步推动了对视听途径同步现象的理解，且架构具有动态和高效的信息处理能力，对神经形态技术具有重要意义。

Apr, 2024

端到端学习语音识别的低层生理学意义

通过对 SincNet 的研究，我们证实了端到端系统确实能够学习到已知的滤波器结构，但是我们还展示了更宽带的滤波器对已学习的结构也很重要，标准的机器学习架构需要被改进以允许这个过程被神经仿真。

Aug, 2022

人工神经网络对人类语言习得的启示

通过使用机器学习及自然语言处理技术，研究语言习得过程，探讨如何让模型学习在有限的语言输入下获取语言知识，以验证关于人类语言学习本质的假说。

Aug, 2022

不变语音识别中的解缠

本研究探讨了深度神经网络在处理时间依赖性信号方面的表现，结果显示语音模型会丢弃特定说话人的噪声信号，而保留与任务相关的语音和音素信息，并在后续层级中出现更高层次的概念表示，此外还展示了深度学习在不同时刻从输入中提取任务相关特征，以实现不变语音识别的能力。

Mar, 2020

人机英语会话电话语音识别

在研究中，作者使用多种声学建模、语言建模技术将 LVCSR 系统评价指标降至 5.5％/10.3％，但验证后发现其仍低于人类表现水平，探讨了人类表现水平的定义及如何进一步降低语音识别误差率等问题。

Mar, 2017

语音和视觉系统中深度神经网络调查

该论文对视觉和语言领域中深度神经网络的最新架构、算法和系统进行了综述，并总结了在硬件限制平台上运行深度神经网络的主要挑战和最新进展，探讨了情感计算、智能交通和精准医学等领域中的新兴应用。

Aug, 2019

自监督音频模型有效解释人类大脑对语音的反应

本文回顾了目前人类低级听觉处理的现有模型，并利用自学语言模型技术创建了新的人类听觉系统的先进模型。结果表明，与声学基线、音素特征和监督模型相比，来自自监督模型中间层的表示可以显著提高对听觉皮层的 fMRI 记录的预测性能，并且不同的听觉处理区域对信息的不同语言层次表现出偏好。

May, 2022

一个预测性学习模型可以模拟连续语音的神经表示中发现的时间动力学和上下文效应

模拟了从计算模型中提取的表示进行的分析揭示了与大脑信号相似的时间动态，这表明这些特性可以在没有语言知识的情况下出现。此外，研究证明，声素的编码模式支持一定程度的跨语境概括，但我们发现这种概括的有效性取决于具体的语境，这表明单独的分析不足以支持存在语境无关编码。

May, 2024

建模语音变化的神经表征

研究使用自我监督的神经模型从语音中提取声学嵌入，计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异，并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。

Nov, 2020