说话人感知语音转换器
提出了一种基于 token 级别序列化输出训练 (t-SOT) 的流式说话者归属性自动语音识别 (SA-ASR) 模型,该模型可以在多人同时说话时实现低延迟的 “谁说了什么” 的识别,并提出了一种基于编码 - 解码的说话者嵌入提取器,可以从非重叠语音和重叠语音中为每个识别的令牌估计说话者表示。
Mar, 2022
本文提出了一种使用未标注数据进行自监督预训练的方法,使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练,从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架,也是 AST 的自监督学习框架的首次探索。
Oct, 2021
这篇论文提出了一个名为 SLIDAR(滑动窗口判别增强识别)的新颖框架,用于联合演讲者判别和自动语音识别,能够处理任意长度的输入和任意数量的说话人,通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入,并通过聚类说话人嵌入获得全局演讲者身份,实验证实了该方法在近距离和远场语音场景中的有效性。
Oct, 2023
本文通过重新审视机器翻译中的 ST 和文本翻译任务技术,提出了一套训练 E2E ST 系统的最佳实践,其中包括参数化距离惩罚、模拟本地化技术等。实验表明,在不使用转录文本和预训练的情况下,该系统可以达到并甚至超过之前使用预训练方法的研究水平,对于极低资源环境依然有差距。此外,我们还首次证明了神经声学特征建模的可行性,并在 ST 任务中取得了令人鼓舞的效果。
Jun, 2022
本研究致力于解决单声道多说话者对话转写和翻译问题,提出了一种名为 Speaker-Turn Aware Conversational Speech Translation 的端到端多任务训练模型,通过在序列化标注格式中使用特殊标记来结合自动语音识别、语音翻译和说话者转换检测。在针对多说话者条件的实验中,我们使用合并了两个单声道通道的 Fisher-CALLHOME 语料库,以更真实和具有挑战性的场景来评估模型性能,实验结果表明我们的模型在多说话者条件下优于传统说话者转写系统,并且在单说话者条件下表现相当。同时,我们还提供了数据处理和模型训练的脚本。
Nov, 2023
本文提出了一种简化的自我注意力(SSAN)层,用于 Transformer 模型的端到端语音识别任务中,以降低模型复杂度和维护良好性能,并在公共 AISHELL-1、内部 1000 小时和 20000 小时大规模普通话任务上评估了 SSAN 基于 Transformer 模型与传统基于自我注意力的模型。结果表明,我们的提出的 SSAN-based transformer 模型在模型参数上可以实现超过 20% 相对减少,在 AISHELL-1 任务上实现了 6.7% 相对语音识别误差率的降低,而且在 20000 小时的大规模任务中,模型失去识别性能。
May, 2020
本论文介绍了基于 Transformer 的在线 CTC/Attention E2E ASR 架构,该架构包括块自注意力编码器和基于单调截断注意力的自注意力解码器,通过将块自注意力编码器和基于单调截断注意力的自注意力解码器集成到在线 CTC/Attention 架构中,实现了在线语音识别,与离线基线相比,具有最低为 0.19%的 CER 衰减和显着的性能提升。
Jan, 2020
本文提出了一种针对自我监督语音及音频分类中 Self-Supervised Audio Spectrogram Transformer (SSAST) 模型的简单、且功能强大的改进方法。具体而言,我们将来自原模型中使用的高掩模比率(75%)的问题进行改进,并将 Masked Autoencoders are Scalable Vision Learners(MAE)的编码器 - 解码器结构集成到 SSAST 中。我们发现 MAE 预训练可以相较于当前的音频预训练策略,在常规模型和输入尺寸下提供 3 倍的加速和 2 倍的内存使用率降低。在下游任务的微调中,我们发现我们的方法比 SSAST 在各种下游任务中表现更优。我们进一步对预训练的不同策略进行了全面的评估,并探讨了视觉和音频领域之间 MAE 风格预训练的不同之处。
Mar, 2022
直接的语音对语音翻译(S2ST)模型 DASpeech 能够以极快的解码速度实现高质量的翻译,使用两步骤生成过程的双通路架构,其中语言解码器首先生成目标文本,然后声学解码器根据语言解码器的隐藏状态生成目标语音。
Oct, 2023