- 先自主训练再转录
研究表明,对于训练和测试领域不匹配的情况下,当前的语音识别系统会显示出较大的性能下降。自我训练方法可以帮助解决这个问题,并在域漂移的情况下使模型适应。本文调查了在测试集上进行噪声学生教师训练作为测试时自适应方法的效益,类似于语言模型的动态评 - FlowMur:一种具有有限知识的隐蔽实用音频后门攻击
提出了一种名为 FlowMur 的隐蔽和实用的音频后门攻击方法,通过构建辅助数据集和代理模型,并优化触发器生成和数据污染过程,增强隐蔽性并提高攻击性能,从而成功实施了高效且难以被检测的后门攻击。
- 多阶段大型语言模型纠错用于语音识别
使用大型语言模型提高竞争性语音识别系统的性能,并通过多阶段方法结合传统语言模型重新评分和大型语言模型提示来进行 ASR 错误修正。
- 优化的转录错误修正的分词
本文展示了通过使用合成数据来进行训练,可以显著提高纠错模型的性能,并通过多种语言、语音识别系统和知名语音识别数据集对我们的方法进行评估。
- 时间瓶颈:为什么定时和重叠对于对话界面、语音识别和对话系统至关重要
对话系统中的定时关键,6 种语言的自然对话数据的词错误率仍然糟糕,重叠问题是一个关键挑战,对话词语的识别受到影响,进而对下游意图识别产生严重后果。
- 生成式大型语言模型能否执行 ASR 错误校正?
本文使用 ChatGPT 模型作为例子,研究其在零样本或一次样本设置中执行 ASR 错误校正的能力,并提出了无约束错误校正和 N-best 约束错误校正方法。结果表明,使用强大的 ChatGPT 模型进行错误校正可以大大提高 ASR 系统性 - 语音基础模型的高效领域自适应
本论文采用自监督预训练方法 BEST-RQ,并使用 JUST Hydra 进行源域和无监督目标域数据的联合微调,将 FM 编码器适配器和解码器微调到目标域,使用少量带标记的域内数据,实现了在大规模 YouTube 和语音搜索任务中既数据又模 - 利用 wav2vec 2.0 检测口吃治疗中的语音障碍
通过使用最新的波形神经网络技术(wav2vec 2.0)并结合多任务学习,对一个英文语料库中的口吃病识别进行了研究,并在语音识别技术和口吃治疗领域有重要应用。
- 端到端语音识别系统的个性化策略
本文提出一种新的基于第一、第二次遍历的重评分策略,以及浅层融合的方法来解决个人化内容识别在端对端语音识别系统中的挑战,并展示了在子词级别上实现这种偏向,大大提高了个性化内容识别的准确性,同时保证了一般用例下识别准确度的最小降低。
- 基于跨模态师生学习的预训练语义语音嵌入用于端到端口语理解
本文提出了一种新的训练方法,将预先训练的语境嵌入用于处理声学特征,并扩展了预先训练的语音识别系统的编码器,以构建端到端的口语理解系统,实验结果表明,该系统在三个基准测试中达到与流水线结构相当的性能,在没有使用任何训练数据的情况下,在两个基准 - Libri-Light: 一项有限或无监督 ASR 基准测试
提供了一个适用于有限或无监督语音识别训练的口语英语音频集合,其中包含来自 LibriVox 项目的开源有声读物,已使用语音活动检测进行段分割,并标记有 SNR,说话者 ID 和流派描述,同时提供了基线系统和评估指标,分为三个设置进行评估。
- 全卷积语音识别
本文提出了一种基于卷积神经网络的语音识别方法,相对于传统的基于循环神经网络的模型使用更少的特征提取步骤,并在多项测试中取得了当下最佳的表现。
- 一种基于贪心发音选择框架的声学数据驱动的词汇表学习
本文提出了一种从转录数据中自动获得单词发音的系统,重点解决了从词汇表中删除词条的问题,实验结果表明我们提出的框架可以学习一个词汇表,在测试数据上的语音识别错误率 (WER) 性能接近于专家词汇表,而且比基于 G2P 或基于发音概率修剪标准构