基于神经序列标注的语言无关音节划分
通过应用多语言情境下的共用符号表示和语言的语言信息来训练递归神经网络模型,我们介绍了多语言模型的思想,以解决建模音序列的问题,该问题中具有普遍符号发明和跨语言共享特征表示。实验结果表明,多语言模型比单语言模型具有更好的泛化性能和更高质量的语音特征表示。
May, 2016
本文提出使用多语言数据建立先前模型,结合迁移学习的方法,通过在10个BABEL语言中训练seq2seq模型来改进音频识别,同时在解码时加入循环神经网络语言模型(RNNLM)来进一步提高模型的表现,实验结果表明,将先前的多语言模型应用于4种其他BABEL语言可以有效提高识别的准确度,并且加入RNNLM辅助也可以带来显著的性能提升。
Oct, 2018
本文将语种识别任务推广到子词级别,研究如何识别包含两种以上语言的语素(intra-word CS),提出了一种基于分段循环神经网络的模型,并在西班牙-韦萨里卡数据集和德国-土耳其数据集的实验中,相较于基准方法有略微提升或相当的表现。
Apr, 2019
本文探讨利用音节对语言建模和机器翻译的作用。通过21种语言的实验,我们发现音节优于字符和其他的子词。在对一个非相关和低资源语言组(西班牙语-Shipibo-Konibo)进行翻译时,音节在成对的和多语言的系统中优于无监督的子词和进一步的形态分割方法。最后,我们进行了一些人类评估,并讨论了局限和机遇。
Oct, 2022
本文提出了一种自我监督语音模型训练方法,可以自动检测语音中的音节边界并对同一音节进行聚类,该模型不仅在英语上表现优异且能够泛化到其他语言,实现了零样本学习,且在四种语言上实现了词分割任务的零样本迁移,胜过了之前的最佳成果。
May, 2023
我们通过数据驱动的计算建模对元音和谐进行了跨语言研究,使用基于信息熵的和谐度量来衡量自然语言词汇中元音的可预测性,训练使用具有较少或无屈折的跨语言可比较的原型形式,结果表明,神经语言模型能够捕捉到呈现这一现象的一组语言中的元音和谐模式。此外,我们的工作还表明词列表是一种有价值的资源,可以用于语言类型学研究,并为未来关于低资源、少研究的语言提供了新的可能性。
Aug, 2023
在自监督学习中,通过基于数据的单元发现在语音处理领域迈入了新的阶段。本文展示了在学习语音的句子级表示中出现了音节组织。通过采用“自蒸馏”目标函数,在没有任何监督的情况下,对预训练的HuBERT进行微调,并添加一个汇总整个句子的聚合器标记。实验结果表明,该模型在语音中画定了明确的边界,并且帧之间的表示显示出显著的音节结构。此外,我们提出了一个用于评估语音句子级表示的新的基准任务,即“Spoken Speech ABX”。与先前的模型相比,我们的模型在无监督音节发现和学习句子级表示方面表现出色。我们展示了HuBERT的自蒸馏能够产生音节组织,而不依赖外部标签或模态,并可能为口语语言建模提供新的、基于数据的单元。
Oct, 2023
本文介绍了一种语言特征提取的方法,特别关注多种语言中单词的自动音节划分,在文本和音标领域中提取音素转录、重音标记和统一的自动音节划分;通过剔除研究,我们证明了这种方法在多种语言(英语、法语和西班牙语)中自动音节划分单词的有效性;此外,我们将该技术应用于CMU ARCTIC数据集的转录中,生成了有价值的注释,可供语音表示学习、语音单元发现和语音相关领域中的语音要素分离使用。
Oct, 2023
在该研究中,我们提出了一种综合的途径来对乌兹别克语进行音节化,其中包括基于规则的技术和机器学习算法。我们的研究结果表明,这两种方法都具有高度准确性,超过了99%。这项研究为未来在乌兹别克语及其他相关低资源土耳其语言中关于音节化及相关领域的研究提供了宝贵的见解和建议。
Dec, 2023
通过深度学习,我们在大量语音记录的数据库上训练了一个中型递归神经网络,用于语言识别任务。网络能够在 40% 的情况下正确识别出 10 秒的语音记录的语言,并且在三分之二的情况下将语言排在前三名。可视化方法显示,从网络激活中构建的表示与语音节奏的分类系统一致,尽管得到的映射比重音节和音节定时语言之间的两个分离簇更复杂。通过识别网络激活与已知语音节奏度量之间的相关性,我们进一步分析了模型。这些发现展示了深度学习工具通过识别和探索与语言相关的声学特征空间,推动我们对语音节奏的认识的潜力。
Jan, 2024