基于混合 CTC/Attention 架构和多特征融合网络的土耳其语音识别探索

Mar, 2023

基于混合 CTC/Attention 架构和多特征融合网络的土耳其语音识别探索

Exploring Turkish Speech Recognition via Hybrid CTC/Attention Architecture and Multi-feature Fusion Network

Zeyu Ren, Nurmement Yolwas, Huiru Wang, Wushour Slamu

TL;DR本文针对土耳其缺乏语音数据造成的语音识别系统性能差问题，通过采用一系列调优技术，提出了结合速度扰动和噪声叠加的数据增强技术和新型特征提取器 LSPC，并将其与 LiGRU 网络结合，形成共享编码器结构并实现模型压缩，最终提出了基于 LSPC 的多特征融合网络作为编码器的主要结构，使得该模型性能可与先进的端到端模型相媲美，该模型相比单特征提取使用 LSPC 时可将单词错误率提高 0.82%-1.94%。

Abstract

In recent years, End-to-End speech recognition technology based on deep learning has developed rapidly. Due to the lack of Turkish speech data, the performance of turkish speech recognition system is poor. Firstly, this paper studies a series of speech recognition tuning technologies.

turkish speech recognition data enhancement technology feature extraction lspc multi-feature fusion network

发现论文，激发创造

基于预训练语言模型的知识迁移，提升基于 CTC 的语音识别

基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱，本文提出了两种知识转移方法，借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中，相对于不使用外部语言模型的基础模型，我们的方法将字符错误率降低了 16.1%。

Feb, 2022

语音增强中高效编码器 - 解码器和双通道 Conformer 的综合特征学习

该论文提出了一种基于改进密集连接块、双路径模块、卷积增强变形器、通道注意力和空间注意力的时间频域语音增强网络（DPCFCS-Net）, 在 VCTK+DEMAND 数据集上表现优于现有技术，其改进的密集连接块和二维注意力模块易于集成到现有网络中，具有更高的适应性。

Jun, 2023

基于联合 CTC-Attention 的端到端语音识别的进展，带有深度 CNN 编码器和 RNN-LM

本研究提出了一个最先进的端到端自动语音识别模型，通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字，其中编码器是基于 VGG 网络的深度 CNN，CTC 网络和注意力解码器共同训练，通过在波束搜索过程中，将 CTC 预测、注意力解码器预测和单独训练的 LSTM 语言模型相结合，相较于先前的系统，在自发性日语和中文语音上减少了 5-10% 的误差，并且我们的端到端模型击败了传统的混合式 ASR 系统。

Jun, 2017

具有 CTC 嵌入的语言增强变压器模型用于语音识别

本文介绍了一种基于联合 CTC-Attention 模型的改进方法 —— 语言增强变压器，它通过在训练过程中将改进的 CTC 信息引入解码器，从而使其更加鲁棒，在 AISHELL-1 语音语料库上的实验表明，字符误差率（CER）减少了高达 7％，同时发现在联合 CTC-Attention ASR 模型中，解码器对语言信息比声学信息更敏感。

Oct, 2022

用于德语端到端语音识别的大语料 CTC 分割

本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据，使用 CTC 和 attention Transformer 模型对德语语音识别进行训练，实现了 12.8％的识别错误率，超过了传统混合 DNN / HMM ASR 的 14.4％的基础水平。

Jul, 2020

基于 Transformer 的多编码器学习和流融合的端到端自动语音识别

通过研究多种融合技术和多编码器学习方法，以实现对变压器架构的最佳融合，仅在训练期间对两个编码器 - 解码器组合的多头注意权重输出进行加权组合，在推理时使用幅度特征编码器，成功地在 WSJ 上展示了一致的改进，并通过简单的后期融合在 WSJ 上取得了状态 - of-the-art 的表现。

Mar, 2021

针对语音识别的端到端注意力模型的改进训练

研究了基于子词单元的序列到序列的注意力机制模型在简单开放式语料库上进行的端到端语音识别中的应用，通过预置一个高时间缩小系数并在训练过程中逐步降低，以及使用辅助 CTC 损失函数等方法，证明了它的有效性和高性能。同时，还对基于子词单元的 LSTM 语言模型进行了训练，在无语言模型情况下，在给定的评估数据子集上相较于注意力基线的 WER 提高了 27%。

May, 2018

多任务学习下的联合 CTC-Attention 基于端到端语音识别

本研究介绍了一种新的方法，使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛，从而减轻对齐问题。实验证明，与 CTC 和 attention-based encoder-decoder 基线相比，在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6％的相对 CER 改进。

Sep, 2016

基于混合 CTC / 注意力架构的音视频语音识别

本文介绍了一种基于 CTC/attention 混合架构的音频和视频的语音识别模型，并在 LRS2 数据库上表明这种模型识别率比仅音频模型提高了 1.3 个百分点，并且在噪声环境下表现出色，是当前状态下最新的结果。

Sep, 2018

基于 Transformer 的端到端多说话人语音识别

本文研究使用 Transformer 模型替代基于循环神经网络的编码器 - 解码器模型，应用于多说话者语音识别和神经束形成器中的遮盖网络，得以有效处理混响信号，并加入外部去混响预处理方法进行对比试验。实验证明，在单通道和多通道任务下，基于 Transformer 的模型相对错误率降低达 40.9% 和 25.6%，在混响环境中的相对错误率降低达 41.5% 和 13.8%。

Feb, 2020