May, 2023

为处理多个说话人而改编多语言 ASR 模型

TL;DR该论文提出了一种使用改进的序列化输出训练和轻量级适配器模块来解决在会议对话中经常出现的多说话者自动语音识别(ASR)问题的方法,实验结果表明该方法有效地将 USMs 转换为具有时间戳预测能力的强大的多语言多说话人 ASR 模型