Aug, 2023

Convoifilter:一项关于进行鸡尾酒会话语音识别的案例研究

TL;DR该论文提出了一种端到端模型,旨在改进在拥挤嘈杂环境中特定讲话者的自动语音识别(ASR)。该模型利用单通道语音增强模块将讲话者的声音与背景噪音隔离,并结合了 ASR 模块。通过这种方法,该模型能够将 ASR 的识别错误率(WER)从 80%降低到 26.4%。通常,由于数据要求的差异,这两个组件是独立调整的。然而,语音增强可能会引起降低 ASR 效率的异常情况。通过实施联合精调策略,该模型可以将单独调整中的 WER 从 26.4%降低到 14.5%。