Sep, 2024

重叠编码分离的序列语音信息引导技术用于多说话人自动语音识别

TL;DR本研究解决了在多说话人自动语音识别中,仅凭注意力损失进行训练的难题。通过提出重叠编码分离(EncSep)技术,结合连接时序分类(CTC)和注意力混合损失,显著提升了对复杂场景的编码表现,并在LibriMix上的实验显示,该方法有效分离了单一说话人的编码,进一步提升了性能。