语言和信道变异对语音分离网络影响的分解
该研究介绍了一种建立在深度学习框架上的端到端时间域语音分离方法,称作基于通道感知音频分离网络 (CasNet),其中引入由通道编码器生成的通道嵌入来解决混合语音中的通道问题,实验结果表明使用此方法的 CasNet 比传统无通道嵌入的 TasNet 有更好的效果。
Oct, 2022
本篇论文探讨了多用户语义通信系统中由于不同语言导致的语义干扰问题,并提出了一种新的语义通道均衡器来解决这个问题。实验结果表明,该语义通道均衡器在操作复杂度和传输准确性方面优于传统方法。
Aug, 2023
通过对 ConvTasnet 和 DPT-Net 模型进行滤波等探究,揭示了基于谐波关系的语音分离端到端模型机制,发现这些网络在遭遇人类无法感知的变形时表现不佳,并且 pinpoints 编码器作为网络不稳定性的来源。
Jun, 2022
研究了地域文化差异对机器翻译的影响,提出了源 - 目标域不匹配的概念,并验证了此假设。探究了这种不匹配如何影响低资源语言对的机器翻译训练,发现通过自我训练和增加目标端单语数据可以减轻背译的衰减。
Sep, 2019
通过引入参考模型以作为测试条件困难性的代理,本研究提出了一个泛化性能评估框架,旨在准确评估具有嘈杂和混响特性的语音增强系统。通过在多个语音、噪声和 BRIR 数据库之间进行交叉验证,准确估计了泛化间隙,发现对于 FFNN、Conv-TasNet、DCCRN 和 MANNER 等模型而言,匹配语音条件下的性能最好,而在不匹配条件下,性能明显下降,甚至不如基于 FFNN 的系统。
Sep, 2023
本文通过全面评估最有影响力的最新大型语言模型(LLMs)在机器翻译和自动语音识别两个高使用频率应用领域上的功能,对多个高和低资源语言的地区方言进行了功能评估,并分析了地方方言差距与经济、社会和语言因素的相关性,从而为方言 NLP 领域的发展奠定基础,并通过有意识的数据收集,揭示明显的差异并寻找可能的解决途径。
Oct, 2023
本文提出了一种新的数据驱动方法来研究跨语音识别方案中的跨语言声学语音相似性,通过训练深度神经网络来将来自不同声音模型的分布转化为可直接比较的形式,并通过熵分析发现少重叠语音的语言更易于跨语言传输,在融合单语言模型方面取得了相对于单语言识别的 8%的改进。
Jul, 2022
该研究提出了一种基于深度神经网络的单通道语音分离方法,该方法通过迭代估计进行不同说话人的音频信号分离,并通过互信息准则进行测试样本的迭代次数确定,实验结果表明该方法在单通道语音分离的 2, 3, 5 和 10 个说话人的情况下均优于现有的最先进模型。
May, 2022
本文介绍了对多达 100 种语言进行训练的多语言端到端语音识别模型的适应性,研究表明了目标语言和预训练语言在语音学、语音学、语言家族、地理位置和正字法等方面的相对重要性,并通过上下文无关的音素目标和语言对抗性分类目标提高了语言无关的编码器表示的效果。
Apr, 2019