预训练模型在土耳其语语音转文本中的性能比较：Whisper-Small 和 Wav2Vec2-XLS-R-300M

Jul, 2023

预训练模型在土耳其语语音转文本中的性能比较：Whisper-Small 和 Wav2Vec2-XLS-R-300M

Performance Comparison of Pre-trained Models for Speech-to-Text in Turkish: Whisper-Small and Wav2Vec2-XLS-R-300M

Oyku Berfin Mercan, Sercan Cepni, Davut Emre Tasar, Sukru Ozan

TL;DR本研究使用土耳其语准备的 Mozilla Common Voice 11.0 开源数据集，对两个预训练的多语言语音到文本模型 Whisper-Small 和 Wav2Vec2-XLS-R-300M 进行性能测试和比较，WER 值分别为 0.28 和 0.16。此外，还使用呼叫中心记录准备了测试数据集以检验模型的性能。

Abstract

In this study, the performances of the whisper-small and wav2vec2-xls-r-300m models which are two pre-trained multilingual models for speech to t

whisper-small wav2vec2-xls-r-300m turkish language speech to text wer values

发现论文，激发创造

Whisper-MCE：用于混合语言更佳性能的 Whisper 模型微调

本文介绍了 Whisper-MCE 模型在 minor language 和 mixed language 语音识别方面的卓越表现，同时提出一种新的评估机制以解决在这些语境下对其有效性进行评估时的挑战。通过将我们的模型与基线模型 whisper-large-v2 进行比较，我们展示了其准确捕捉原始音频内容、实现更高的识别准确率和更快的识别速度的卓越能力。值得注意的是，在识别 mixed language 的特定任务中，我们的模型超越了其他现有模型。

Oct, 2023

跨语言 monolingual wav2vec-2.0 的魔法尘

该研究提出了一种简单有效的跨语言转移学习方法，以适应资源匮乏语言的单语言 wav2vec-2.0 模型的自动语音识别（ASR），并通过使用目标语言中的一组适度大小的无标签语音数据集和几个 Dropout 不确定性驱动的自我训练（DUST）迭代进一步提高其性能。该调整后的 wav2vec-2.0 在目标语言 ASR 任务上达到了类似于训练了 53 种语言的顶级多语言 XLSR 模型的性能。

Oct, 2021

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了 DistilWhisper 方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的 ASR 性能。

May, 2024

多语言自监督和弱监督语音预训练与适应未见语言的比较

本文研究了两个多语言语音模型在适应未见语言上的性能比较，发现模型的预训练数据中包含的语言家族数量和训练时长能预测模型的表现，与预训练方法的差异不相关。

May, 2023

使用经过微调的 XLSR Wav2Vec2 在自定义数据集和 mBART 上对视频进行转录和翻译

通过最小的数据量，利用检索式语音转换和自监督表示的方法，对个性化语音识别模型进行训练，实现多语言视频内容转录和翻译的无障碍解决方案。

Mar, 2024

语音表示的 MOS 预测评估

该研究评估了预测语音质量的特征提取模型，并提出了一种模型架构，用于比较有监督学习和自监督学习模型的嵌入和说话人验证模型的嵌入以预测指标 MOS；实验结果在 VCC2018 数据集和一个叫做 BRSpeechMOS 的巴西 - 葡萄牙语数据集中均表明，译为 “耳语模型” 在所有情境下都是适当的。

Jun, 2023

使用大型数据集探索单语音频 Transformer 在捷克语自动语音识别中的能力

本文介绍了在大数据集上通过预训练机器学习模型和微调等方法，利用无标签语音数据和有标签语音数据对 Wav2Vec 2.0 进行 ASR 系统的训练及评估，并取得成功的实验结果。

Jun, 2022

使用预训练模型的自适应多语言语音识别

使用预训练的 wav2vec 2.0 和 MBART50 模型，结合自适应权重技术，显著提高公共数据集上多语言语音识别的准确性，比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。

May, 2022

土耳其语语言模型的性能比较

本研究目的是填补文献中关于土耳其语的各种开源语言模型的性能比较的空白，通过比较七个选择的语言模型在上下文学习和问答能力方面的表现，发现继续在 fine-tuning 之前进行预训练的指导数据集可以更好地适应土耳其语的多语种模型，并且上下文学习的表现与问答的表现关系不大。

Apr, 2024

预训练的 Wav2Vec 2.0 在领域转移语音识别方面的表现如何？对空中交通管制通讯进行了广泛的基准测试

本研究旨在探讨在预训练和 fine-tuning 阶段数据属性存在实质性差异的情况下，在空中交通管制数据上分析 Wav2Vec 2.0 和 XLS-R 模型的鲁棒性，结果显示，通过只使用已标注数据的较小部分来对 E2E 声学模型进行 fine-tuning，相对于基于混合式 ASR 基线的声学模型，可以在几个开源且具有挑战性的 ATC 数据库中实现 20％至 40％的相对字错率降低，并分析了一种 ATC 数据集中的低资源和性别偏见的情况。

Mar, 2022