- Simul-Whisper:带有截断检测的注意力引导流式 Whisper
Simul-Whisper is a streaming speech recognition model that utilizes time alignment embedded in Whisper's cross-attention - 用于多语言 ASR 的参数高效语言扩展框架
基于架构的语言扩展框架被提出来解决多语言演讲识别模型(MASR)的持续学习和参数高效的微调(PEFT)方法,提高了在不同语言间的转换能力。
- 通过语言提示调整和帧级别语言适配器增强多语言语音识别
提出了两种简单和参数高效的方法:语言提示调优和帧级语言适配器,用于分别增强可配置语言和语言无关的多语言语音识别,同时探索了使用参数高效的微调方法整合这两种方法的可行性。实验证明了我们提出的方法在七种语言下均具有显著的性能提升。
- 将 Whisper 转化为实时转录系统
Whisper-Streaming 是基于 Whisper 的实时语音转录和翻译模型实现,使用本地协议和自适应延迟策略,能够在多语言会议的实时转录服务中展示高品质和 3.3 秒延迟。
- 面向不断学习新语言
本研究通过将权重分解和弹性权重整合的方法相结合,以抵消灾难性遗忘并快速学习新语言,在 10 种语言的初始训练中实现了从 10 种语言到 26 种语言的学习,同时消除了灾难性遗忘。训练后的性能表现可以与全部语言同时训练相媲美。
- 低资源多语音声学模型融合的非线性两两语言映射
在多语种语音识别中,为了弥补低资源语言的数据匮乏,人们广泛使用多功能语音识别。 本文提出了一种新颖的混合 DNN-HMM 声学模型融合方法,实现了多种低资源语言的跨语音识别,且相对于多功能和单语基线,后验融合得到了 14.65%和 6.5% - LAE: 用于单语和多语言 ASR 的语言感知编码器
该研究提出了一种新的语言感知编码器(LAE)架构,通过解开语言特定信息和在编码期间生成帧级语言感知表示来处理多语言语音识别,并且在华语 - 英语混合语音上表现出卓越的性能。
- 使用预训练模型的自适应多语言语音识别
使用预训练的 wav2vec 2.0 和 MBART50 模型,结合自适应权重技术,显著提高公共数据集上多语言语音识别的准确性,比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。
- 自适应调整:克服多语言语音识别中的长尾问题
本文提出了一种基于 Transformer 的多任务学习框架 Adapt-and-Adjust (A2),通过利用预先训练好的多语种语言模型 (mBERT) 来提高低资源语言的性能、提出有着最小额外参数的语言特定和语言不可知适应器,以及在训 - 无监督跨语言表示学习用于语音识别
XLSR 是一种学习跨语言语音表示的模型,通过对多种语言的语音原始波形进行预训练来构建模型,上述模型建立在 wav2vec 2.0 的基础之上,可以使用单一模型完成多语言语音识别任务,并且具有更好的性能。
- 只需 Bytes:使用 Bytes 实现端到端多语言语音识别和合成
本文提出了两个端到端模型:Audio-to-Byte (A2B) 和 Byte-to-Audio (B2A),用于多语言语音识别和合成。模型的关键是使用 Unicode 字节序列来建模文本,并且通过使用字节代替大的 softmax 函数,不 - 用单个 Transformer 实现多语言低资源语音端到端识别
本文利用单个 transformer 模型及语言符号,针对低资源语言进行多语言语音识别,相较于 SHL-MLSTM 具有较高的识别精度。
- 通往语言通用的端到端语音识别
利用最新的端到端语音识别技术,我们提出一种使用通用字符集和网络内自适应机制的多语音种语音识别系统,其可优于单一多语种或多任务学习方法,并可用于代码转换场景。