关键词overlapped speech recognition
搜索结果 - 3
- 多说话人重叠语音识别的演讲者掩蔽变换器
该研究论文提出了一种新的模型,结合语音识别和说话人分离的任务,通过引入说话人标签和说话人掩码分支,实现了多说话人重叠语音的识别和说话人分离。实验证明了该方法在复杂的多说话人场景中有效地提高了说话人分离的准确性。
- LRS2 数据集中重叠语音的音视频识别
本研究探讨了利用视听技术识别重叠的语音信息的三个问题,包括基本体系结构设计,模态融合的建议设计门,以及通过优化的统一的方法来建立 AVSR 系统。实验结果表明,该系统在 LRS2 数据集上的性能超过了传统的语音分离和识别组件的流水线架构,可 - 无监督单通道重叠语音识别中的渐进联合建模
提出一种基于模块化结构、渐进式预训练、转移学习以及鉴别性训练标准的神经网络模型,相较于现有模型,该模型在解决无监督单通道重叠语音识别方面表现更为优秀,能够取得超过 30% 的远程词错误率相对改进。