基于语音库差异的无监督数据选择在 ASR 中的应用

Feb, 2023

基于语音库差异的无监督数据选择在 ASR 中的应用

Speech Corpora Divergence Based Unsupervised Data Selection for ASR

Changfeng Gao, Gaofeng Cheng, Pengyuan Zhang, Yonghong Yan

TL;DR本研究提出了一种基于语音语料库分歧的无监督目标感知数据选择方法，使用自监督 Hubert 模型将语音语料库离散化为标签序列，计算 N-gram 概率分布，并计算 N-gram 之间的 KL 散度作为 SCD，从而选择与目标语料库具有最小 SCD 的子集进行注释和训练。与以往的数据选择方法相比，SCD 数据选择方法可以关注更多的声学细节并保证所选集的多样性。在 Common Voice 的不同口音上进行评估，实验结果表明，所提出的 SCD 数据选择方法可以实现 14.8% 的相对改进，与有监督的选择结果相当或甚至更好。

Abstract

Selecting application scenarios matching data is important for the automatic speech recognition (ASR) training, but it is difficult to measure the matching degree of the training corpus. This study proposes a unsupervised target-aware data selection method based on →

automatic speech recognition data selection unsupervised learning speech corpora divergence n-gram probability distribution

发现论文，激发创造

多领域语音识别的数据选择性迁移学习

本论文提出一种通过有效选择训练语音数据来克服负迁移的新技术，该方法利用基于可能性比率的子模块函数为特定目标的相关言语数据进行选择。在广泛领域数据集上进行的实验表明，该技术可以找到相关数据并限制负迁移。使用这种数据选择技术，基于 PLP 特征的语音模型和基于 DNN 特征的语音模型的方法都可以得到 4％和 2％的相对改进。

Sep, 2015

面向短语对话扬声器辨别挑战的 TSUP 扬声器分离系统

该论文描述了 TSUP 团队在 ISCSLP 2022 CSSD 挑战赛中的参赛表现和关键研究成果，侧重于短话语音者分离与新的评价指标 CDER。SC 方法是最受欢迎的方法并且所有的三种语音者分离系统都需要调参，最后 SC 系统的表现居于第三名。

Oct, 2022

为增强 ASR 训练而选择文本转语音数据

本文提出了一种方法，通过训练神经网络来选择合适的合成语音样本，使其作为自动语音识别模型的辅助训练数据，这在训练中包括有实际的标注数据和合成的数据。在实验中，我们发现将与真实语音具有较大差异性的合成样本（由于词汇差异等原因）纳入到训练中对于提高语音识别性能至关重要，同时，我们的方法可以显著减小文本 — 语音转换（TTS）数据的大小。

May, 2023

SCD: 自对比装饰用于句子嵌入

本文提出了一种自监督学习方法 SCD，其通过对输入句子进行联合自对比和去相关优化来学习表示，并通过利用标准 dropout 的实例化产生的对比来实现。该方法在多个基准测试中取得了与最先进方法相当的结果，而不使用对比对。

Mar, 2022

调查域选择对孟加拉孟加拉语自动语音识别表现的影响：以案例研究为例

本研究中，我们通过评估一个最先进的孟加拉语自动语音识别模型，证明了领域选择的重要性，该模型在新的多领域孟加拉语 ASR 评估基准 - BanSpeech 上进行评估，其中包含来自 19 个不同领域的 9802 个话语。该 ASR 模型已经在 SUBAK.KO 上进行了训练，使用了深度卷积神经网络，层规范化技术和连接时序分类丢失准则，评估结果表明该 ASR 模型很难识别源于大部分自发性言论的领域的语音，并且包含的生词数量很多，在阅读语音领域表现更好并且包含更少的生词。

Oct, 2022

JSCDS: Jason-Shannon 距离的蛀牙 RGB 图像核心数据选择方法 - 高效学习

利用基于深度学习的 RGB 龋齿检测，通过核心数据选择方法中的 Jensen-Shannon 散度来提高学习效率和龋齿分类性能。

Jun, 2024

基于教师 - 学生学习的大规模领域自适应

本文提出一种用于领域自适应的方法，不需要转录数据，而是使用源域和目标域的无标记平行数据，利用教师 / 学生学习方法在目标域中训练模型，并在两种场景下进行评估，实现了显著的准确率提升，尤其是当使用模拟训练数据时，增加了模型的鲁棒性。

Aug, 2017

现代希腊语语音识别无监督域自适应的样本效率研究

本文提出了基于源域自监督的 M2DS2 策略用于大型预训练语音模型的微调，并在希腊语 ASR 系统中测试表现，结果显示相比其他基准线算法，M2DS2 在跨域适应中具有显著优势。

Dec, 2022

休斯顿，我们遇到了分歧：ASR 模型的子群绩效分析

该研究探讨了 NASA 阿波罗任务的多话者团队通信潜力，并提取了音频记录的关键元数据，通过分析不同元数据组合的子组的性能差异，研究了自动语音识别方法在阿波罗录音中的可行性和问题，在不同模型和多语言处理上优化了 ASR 系统的性能，为地球与太空通信的 ASR 系统优化提供了理论基础。

Mar, 2024

大规模语言模型词表筛选在低频词语音识别中的应用

通过降采样、明确筛选稀有词以及使用基于困惑度的对比筛选等简单的策略，结合生产语音引擎，利用语言模型融合技术，相对于使用原始语料训练出的语言模型，使智能语音助手能够更好地辨别听众说出的稀有词而不影响总体识别准确率，并在实时语音搜索流量中得到了有利的侧面对比评估结果。

Mar, 2022