Jun, 2024

ASTRA:无需采样的 ASR 语音和文本表示对齐

TL;DR该论文介绍了 ASTRA,一种通过文本注入来改进自动语音识别(ASR)的新方法,它消除了在语音和文本模态之间匹配序列长度时采样的需要,并利用 CTC/RNNT 模型内部学习到的固有对齐性。这种方法有两个优点,即避免由上采样导致的语音和文本特征之间潜在的对齐问题,以及消除模型准确预测子词标记持续时间的需求。该新颖的模态(长度)匹配公式将加权的 RNNT 目标与基于持续时间方法在 FLEURS 基准测试上的最新技术性能相匹配,同时开辟了语音处理领域的其他研究方向。