- 基于图传播的跨句子 ASR 重新评分
本文提出了一种基于图形标签传播的新方法,通过利用跨话语声学相似性重新评分 ASR N 个最佳假设。与传统的基于神经 LM 的 ASR 重新评分 / 重新排名模型不同,我们的方法依 focuses on acoustic informatio - 用于自动语音识别的合成跨口音数据增强
本研究旨在改进口音转换模型,通过加入声学知识,提高模型对不同口音发音的准确性,采用生成数据训练 ASR 系统,实验结果表明,合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解,但不能推广到未见口音及纯母语模型上。
- 基于多个输入假设和有约束的解码空间的强健 ASR 错误校正的 N-best T5 模型
本文提出了一种基于 N-best T5 模型和约束解码过程的语音识别自动纠错方法,通过从预训练语言模型中传递知识和获取 ASR 解码空间中更丰富的信息,该方法在 ASR 后处理中取得了更好的性能表现。
- 自动语音识别的解释
本研究提供了一种基于解释性人工智能的方法,旨在帮助提高人们对神经网络自动语音识别系统的理解及信任度,并针对文本转录的特性提出了针对性的解释方式,通过解释性故障定位和因果关系建立,以及基于局部可解释性模型的方法进行解释结果的评估。
- 实现非自回归端到端 ASR 模型的时间戳预测
本文提出在非自回归 ASR 模型 - Paraformer 中,利用连续积分 - 火时间戳机制(CIF)进行时间戳预测,并采用 fire-delay、静音插入和 scaled-CIF 等后处理策略来解决 CIF 的偏置问题。实验结果显示,优 - 改进和分析用于 ASR 的神经说话人嵌入
本文研究了将神经说话者嵌入用于一个 ASR 系统,并通过基于 Conformer 的混合 HMM ASR 系统,在使用加权简单加法(Weighted-Simple-Add)集成方法时,展示了改进的嵌入提取流程,通过比较和分析不同的说话者嵌入 - 无监督语音重构中解离韵律表示
本文讨论并提出一种名为 Prosody2Vec 的语音重构模型,能够从无标记的情感语音语料库中学习韵律信息表示,并能在情感语音识别和情感语音转换等任务中有效地实现对韵律特征的捕捉,同时与 HuBERT 表示相结合时表现优于最先进的方法。
- TriNet:稳定自监督学习,防止 ASR 系统完全或缓慢崩溃
本文提出 TriNet 模型,利用三分支结构防止信息崩溃和维护预训练稳定性,学习自我监督潜在嵌入空间并将其纳入更高级别的空间用于对由冻结老师生成的伪目标向量进行预测,实验结果表明相对于 Data2vec 等最新技术,TriNet 显著稳定并 - 新加坡口语标点修复:英语、马来语和华语
该论文介绍了一种针对 ASR 转写文本中缺失标点的修复方法,使用基于填槽(slot-filling)的方法进行标点预测,取得了在英语、华语、马来语 IWSLT2022 数据集上最好的效果。
- 使用说话人标签改进和对抗:提高自动语音识别
本研究旨在研究如何将增强领域及去除领域差异这两个相反的目标应用于说话人标签以提高 Conformer-based ASR 的性能,并通过适应性渐变反转层进行稳定有效的对抗训练。最佳说话人 MTL 可以在 Switchboard Hub5'0 - 70 种语言的大规模多语音识别:分词、架构、泛化能力
本文研究了 70 种语言的大规模多语种 ASR 模型,并通过优化多重嵌入和输出模型的标记化策略,相对于单一语种模型,实现了 13.9%-15.6% 的平均 WER 改进,并展示了其泛化性和零样本学习能力在 Multilingual Libr - 自监督语音识别模型中避免过度思考
本文介绍了一种应用于 ASR 任务的早期退出策略(EE),借此解决自我监督学习模型在大规模任务中存在的推理速度慢和网络反应过度的问题,并提出了两种新的策略来优化性能和速度之间的平衡。
- EMNLP使用组合端到端模型进行口语理解的标记级序列标注
通过使用 ASR 和 NLU 的组合方式,我们构建了一种组合式的 SLU 模型,其可以将语音模态转换为传统的 token-level 表示,解决了现有 end-to-end 模型中的序列标记问题,并在命名实体识别任务上优于传统的级联和直接的 - ICLRESB:多域端到端语音识别基准测试
本文介绍了一个最新的基于端到端的语音识别测试平台,探讨了跨多个不同数据集和语音分布时对识别相同语音流的支持,并对不同的系统进行了比较分析分析,发现端到端系统在不同数据集的应用效果良好,并指出了如何改进现有语音识别系统存在的问题。
- 利用 wav2vec 2.0 进行 L2 口语英语的熟练度评估
本研究通过研究两个小数据集,其中一个是公开的,探讨使用 wav2vec 2.0 对英语口语能力的整体和各方面进行评估的可行性,相对于基于 ASR 和手动转录训练的 BERT 基准系统,发现此方法有很大的提升。
- EMNLP视觉语境能否提高具有体现特征的智能体自动语音识别的性能?
本文介绍了一种利用视觉信息,通过新的解码器偏置技术将机器人的语音识别能力改进来识别含有可见实体描述的口语,以提高自动语音识别系统在机器人上的鲁棒性能,并取得了 %59 的相对错误率降低。
- 非分段输入的同步翻译:滑动窗口方法
提出一种基于滑动窗口的方法来翻译语音识别输出,实验结果表明比传统的 ASR 分段方法提高了 1.3-2.0 BLEU 分数,且减少了重新翻译的需要。
- 学习联合转录和字幕生成用于端到端自发语音识别
本研究提出一种利用电视字幕数据进行语音识别与自动字幕生成的多任务双解码器 Transformer 模型,通过模型共享的编码器,同时预测语音和生成字幕,无需预处理,实现了 ASR 性能的提升。
- 基于 Transformer 的长篇口述流式标点
本文提出了一种使用动态解码窗口的流式标点或重新标点的自动语音识别输出方法,并测量了其对标点和分段准确性的影响。新系统解决了过度分段的问题,提高了分段 F0.5 得分 13.9%。流式标点平均提高了 0.66 的 BLEU 分数,适用于机器翻 - 同音字揭示真相:针对 Speech2Vec 的现实检验
本文检验了 Speech2Vec 模型的效果,发现其未能学习到有效的语义嵌入,并怀疑原文中提到的语音词向量是由一个基于文本的模型生成的。