Jan, 2024

统一多通道远场语音识别系统:将神经波束形成与基于注意力的端到端模型结合

TL;DR我们提出了一种统一的多通道远场语音识别系统,结合了神经波束成形和基于 Transformer 的 Listen,Spell,Attend(LAS)语音识别系统,进一步扩展了端到端语音识别系统以包含语音增强,并通过共同训练来优化最终目标。