- 轻量级音频分割用于长篇语音翻译
提出了一种小型模型的分段模型,使用 ASR 语音识别与标点任务作为前训练策略并将其整合到 ST 系统中,以提高语音翻译质量。
- 一种音调感知的循环连接模型:基于 TRACX2 的探索
在这篇研究论文中,我们通过探索 TRACX2 模型如何应用于基本旋律感知来回答相似或相同的机制是否用于语音分割、串行图像处理和音乐处理的计算建模。TRACX2 模型是一个基于识别的递归连接主义自编码器模型,成功地模拟了语音和串行图像处理,并 - EMNLP基于嘈杂词边界的 XLS-R 微调,实现无监督语音分词
利用半监督学习的灵感,我们使用最新的自我监督语音模型通过微调迅速适应新任务,实现在没有文本监督的情况下,将语音句子分割为单词单位的挑战,我们通过微调 XLS-R 模型来预测由顶级语音分割系统(DPDP、VG-HuBERT、GradSeg 和 - DP-Parse: 使用实体词典从原始语音中找到单词边界
提出 DP-Parse 模型,使用基于实例词汇表的 Dirichlet 过程对语音信号进行分割处理,并且可以与语言模型配合使用,通过新的口语词嵌入数据集对其语义和句法表征能力做出评估。
- 使用分割双语语音语料库优化语音分割的端到端语音翻译
本研究提出了一种基于二分类模型的语音分割方法,并结合检测静音的 VAD 方法,该方法更适用于级联和端到端语音翻译系统,翻译性能也得到了进一步提升。
- 使用分段对比预测编码进行无监督语音分割和可变速率表示学习
该论文提出了一种使用自监督学习和分段对比预测编码框架来同时完成语音信号的音素和类似单词的分割任务,并发现了连续元音或半元音之间的边界是最难识别的,从而可以在较低的特征提取率下提取出更好的语音特征。
- MM无监督自动语音识别:综述
这篇论文研究了使用无监督学习的方法,包括语音分割,语音信号到文本的映射和半监督模型来实现自动语音识别,以识别从语音数据中可以学到的极限并理解语音识别的最小要求,目的是为了在开发低资源语言的语音识别系统时优化资源和努力。
- 利用自监督量化神经网络实现无监督的音素和单词分割
本文提出了利用预训练自我的向量量化神经网络来实现语音分段和聚类的无监督学习方法,并在各种任务中展示出可以在低码率下得到更好的表现的切分方法。
- 无监督词语分割与词汇发现:基于声学词嵌入的方法
提供了一种基于无监督贝叶斯模型的语音分割以及聚类算法,通过将有潜力的单词段嵌入固定维度的声学向量空间,并在此空间创建全词声学模型以及同时执行分割来实现输入语音基于单词类型的完整无人监督标记,模型在连接数字识别任务中取得约 20% 的错误率, - AAAI鲁棒性凸分割
本文提出了一种基于凸优化的序列数据分割方法,显式考虑到离群点对算法的干扰,并且提出了一种自顶向下的创新算法来求解问题。在声音分割方面的两个实际任务中,我们的算法表现优于基线算法。
- 将韵律和词汇提示整合用于自动主题分割
文章提出了一种概率模型,使用基础语调和词汇线索对语音进行自动分割,通过隐马尔可夫模型和决策树结合词汇和基础语调信息。作者通过在广播新闻语料库上进行 DARPA-TDT 评估,证明了将基础语调和基于单词的知识源结合可以显著减少错误,并与基于词 - MM基于韵律的语音自动分句和主题划分
探究在语音数据中使用音韵学信息(从语音的时间和旋律中获得的信息)来实现句子和主题单元的分割,并将其与基于单词的方法相结合,取得了与基于单词的统计语言模型相当甚至更好的性能,而且需要较少的训练数据和手动标签。