语言和信道变异对语音分离网络影响的分解

Mar, 2022

语言和信道变异对语音分离网络影响的分解

Disentangling the Impacts of Language and Channel Variability on Speech Separation Networks

Fan-Lin Wang, Hung-Shin Lee, Yu Tsao, Hsin-Min Wang

TL;DR本文研究语音分离的问题，发现不同语言对模型的影响可忽略，而采用安卓手机录制的数据进行训练可以得到最好的泛化性能。同时，作者提出了一种针对信道不匹配的新的解决方案，通过测量信道相似性并选择合适的训练数据，可以有效提高模型在实际测试数据上的性能。

Abstract

Because the performance of speech separation is excellent for speech in which two speakers completely overlap, research attention has been shifted to dealing with more realistic scenarios. However, domain mismatch

speech separation domain mismatch training/test situations language impacts channel impacts

发现论文，激发创造

CasNet: 探究语音分离的通道稳健性

该研究介绍了一种建立在深度学习框架上的端到端时间域语音分离方法，称作基于通道感知音频分离网络 (CasNet)，其中引入由通道编码器生成的通道嵌入来解决混合语音中的通道问题，实验结果表明使用此方法的 CasNet 比传统无通道嵌入的 TasNet 有更好的效果。

Oct, 2022

语义通道均衡器：多用户语义通信中的语言不匹配建模

本篇论文探讨了多用户语义通信系统中由于不同语言导致的语义干扰问题，并提出了一种新的语义通道均衡器来解决这个问题。实验结果表明，该语义通道均衡器在操作复杂度和传输准确性方面优于传统方法。

Aug, 2023

终端到终端语音分离模型漏洞的实证分析

通过对 ConvTasnet 和 DPT-Net 模型进行滤波等探究，揭示了基于谐波关系的语音分离端到端模型机制，发现这些网络在遭遇人类无法感知的变形时表现不佳，并且 pinpoints 编码器作为网络不稳定性的来源。

Jun, 2022

端到端多通道语音分离

本文提出了一种基于端到端的多通道语音分离模型，通过可学习空间特征的提出，在 WSJ0 远场语音分离任务中显著改进了单通道和传统多通道方法的性能。

May, 2019

机器翻译中的源目标领域不匹配问题

研究了地域文化差异对机器翻译的影响，提出了源 - 目标域不匹配的概念，并验证了此假设。探究了这种不匹配如何影响低资源语言对的机器翻译训练，发现通过自我训练和增加目标端单语数据可以减轻背译的衰减。

Sep, 2019

评估基于学习的语音增强系统在嘈杂和混响环境中的泛化差距

通过引入参考模型以作为测试条件困难性的代理，本研究提出了一个泛化性能评估框架，旨在准确评估具有嘈杂和混响特性的语音增强系统。通过在多个语音、噪声和 BRIR 数据库之间进行交叉验证，准确估计了泛化间隙，发现对于 FFNN、Conv-TasNet、DCCRN 和 MANNER 等模型而言，匹配语音条件下的性能最好，而在不匹配条件下，性能明显下降，甚至不如基于 FFNN 的系统。

Sep, 2023

量化方言差异及其与语言之间的关联

本文通过全面评估最有影响力的最新大型语言模型（LLMs）在机器翻译和自动语音识别两个高使用频率应用领域上的功能，对多个高和低资源语言的地区方言进行了功能评估，并分析了地方方言差距与经济、社会和语言因素的相关性，从而为方言 NLP 领域的发展奠定基础，并通过有意识的数据收集，揭示明显的差异并寻找可能的解决途径。

Oct, 2023

跨语言声学 - 语音相似度对多语种语音识别的影响研究

本文提出了一种新的数据驱动方法来研究跨语音识别方案中的跨语言声学语音相似性，通过训练深度神经网络来将来自不同声音模型的分布转化为可直接比较的形式，并通过熵分析发现少重叠语音的语言更易于跨语言传输，在融合单语言模型方面取得了相对于单语言识别的 8％的改进。

Jul, 2022

SepIt: 接近单通道语音分离界限

该研究提出了一种基于深度神经网络的单通道语音分离方法，该方法通过迭代估计进行不同说话人的音频信号分离，并通过互信息准则进行测试样本的迭代次数确定，实验结果表明该方法在单通道语音分离的 2, 3, 5 和 10 个说话人的情况下均优于现有的最先进模型。

May, 2022

大规模多语种对抗性语音识别

本文介绍了对多达 100 种语言进行训练的多语言端到端语音识别模型的适应性，研究表明了目标语言和预训练语言在语音学、语音学、语言家族、地理位置和正字法等方面的相对重要性，并通过上下文无关的音素目标和语言对抗性分类目标提高了语言无关的编码器表示的效果。

Apr, 2019