- 启用低资源语言的 ASR:一个全面的数据集创建方法
本研究介绍了一种用于从有声读物生成 ASR 训练数据集的新型流程,以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本,并将其分割成适合 ASR 训练的长度,简化了资源稀缺语言中 ASR 系统的数据准备工 - L1 和 L2 瑞典语说话者的 ASR 结果比较分析
使用词错误率比较母语和非母语、朗读和即兴的瑞典话语在不同的 ASR 服务中的识别结果,并分析可能导致观察到的转录错误的语言因素。
- 自我监督表示在自动语音识别中的高效注入
我们提出了两种简单的方法,使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构,从而在训练期间避免使用自监督学习模型,加快了训练速度,并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性 - SpeechColab 排行榜:一个用于自动语音识别评估的开源平台
本研究介绍了一个通用、开源的自动语音识别评估平台 SpeechColab Leaderboard,并使用此平台报告了一项全面的基准测试,揭示了自动语音识别系统的最新发展状况,包括开源模型和商业服务,还修改了传统的 Token-Error-R - 自洽的上下文感知转移学习器用于语音识别
我们提出了一种基于转录者的新型神经网络架构,通过增加上下文信息流来提高自动语音识别系统的准确性,特别是对于不常见的词语识别准确性的改进。我们研究了使用该新模型和 / 或与上下文语言模型浅层融合时不常见词的准确性改进,并发现两者的组合在不常见 - 精确安全交易的数字微模型
我们的研究致力于创建数字识别的微型模型,以处理反映现实世界发音模式的不同讲话样式,并且相较于商业或开源的 ASR 系统,我们的微型模型在识别数字方面减少了错误率(我们最佳微型模型的错误率为 1.8%,而 Whisper 错误率为 5.8%) - 高精度语音搜索查询纠错通过可检索的语音 - 文本嵌入
通过使用多模式语音文本嵌入网络,从语音文本数据库中直接查询校正候选项,以消除音频 - 假设不匹配问题,并在将候选项添加到原始候选列表之前使用语音 - 文本嵌入距离对候选项进行评分,该方法在改善检索率的同时,降低了相对的词错误率(WER)。
- 视频文本对齐的强基准
通过建立一个简单而强大的基于 Transformer 的模型,本研究考虑了视频和文本在时间上的对齐问题,并通过考虑语音识别误差的减少、选择不同的视觉 - 文本骨干和将嘈杂的 ASR 转录转化成描述性步骤等关键因素,实现了在叙述对齐和步骤对应 - 使用 Transformer 进行少样本处理的发音障碍语音可理解性水平分类
通过使用具有有限数据的 Transformer 模型,本研究旨在准确分类失语和提供有关可理解性水平的信息,同时解决以往研究中存在的数据泄漏问题,并表明所采用的多课程模型在特定数据集上获得了 67% 的准确度。
- CPPF:一种基于上下文和无后处理的自动语音识别模型
通过将多个与语音识别相关的 ASR 文本处理任务集成到 ASR 模型中,我们提出了 CPPF 模型,它不仅缩短了多阶段的处理流程,还避免了级联错误的传播,直接生成了后处理的文本。
- ASTER:面向口吃者的自动语音识别系统可访问性测试
提供一种用于测试和分析自动语音识别系统性能的测试用例生成方法,该方法通过模拟真实的口吃语音并注入多种不同类型的口吃来生成有效的测试用例,并在评估中明显增加了评估的 ASR 系统的词误差率、匹配错误率和词信息损失。
- SeACo-Paraformer: 一个灵活且高效的非自回归 ASR 系统,具备可定制化的热词能力
我们提出了一种具有灵活和有效的热词自定义能力的新型非自回归型 ASR 系统,该系统结合了基于 AED 模型的准确性、非自回归模型的高效性以及上下文化的出色性能,在大规模实验中优于其他基线模型,同时我们还探索了一种高效的方式来过滤大规模的热词 - 时间瓶颈:为什么定时和重叠对于对话界面、语音识别和对话系统至关重要
对话系统中的定时关键,6 种语言的自然对话数据的词错误率仍然糟糕,重叠问题是一个关键挑战,对话词语的识别受到影响,进而对下游意图识别产生严重后果。
- NPTEL MOOC 数千个视频间的单词错误率差异的深入研究
本研究描述了一个庞大的语音数据集的构建过程,并利用该数据集评估了印度不同演讲者的性别、籍贯、年龄和语速对 YouTube 自动字幕和 OpenAI Whisper 模型性能的影响。结果表明需要更具包容性和鲁棒性的 ASR 系统以及更具代表性 - 用平衡语料库实现低资源语言方言包容性识别的探索
研究了影响语音自动识别(ASR)系统跨音系瓶颈的爱尔兰三个主要方言的对比分析,结果显示平衡方言的语料库无法在方言之间产生相似的表现,这些结果将指导未来语料收集和系统构建策略以优化跨方言表现公正性。
- 面向语言学习应用的非母语儿童语音自动识别
研究评估了两个最先进的自动语音识别系统 Wav2Vec2.0 和 Whisper AI 的性能,以开发一个可以支持儿童学习外语的语音机器人,并探究使用 ASR 技术提供对孩子的发音和流利度的洞察力的效用
- 针对 Conformer 转录器语音识别系统的有效紧凑上下文表示
本文提出了一种能够学习到跨话语上下文特征的紧凑的低维度的特征表示方法,并通过在先前话语的历史向量上应用特殊设计的注意力池化层,来优化了基于 Conformer-Transducer 编码器的 ASR 系统,在 1000 小时的 Gigasp - 基于 ASR 的阅读启蒙导师:如何优化对一年级学生的反馈
本研究通过 ASR 系统分析儿童的语音来开发新的系统,与之前的研究进行比较,结果表明新开发的 ASR 系统在正确拒绝方面表现出更好的结果;该结果表明,难以对孤立的单词进行分类。
- 弱监督不完美转录下的自动语音识别:绕过时间分类
提出了一种利用 Bypass Temporal Classification (BTC) 方法来扩大微调自动语音识别模型 (CNN) 准确性的算法,并且该算法构建了一个基于加权有限状态转换器 (WFST) 的可变性训练图来明确地编码训练期间 - Vistaar: 用于印度语音识别的多元基准和训练集
本文提出了 Vistaar,59 个受试语言和领域组合的基准,用于评估和改进三个公开的 ASR 系统和两个商业系统,同时使用 IndicWhisper 通过在 12 种印度语言上进行微调,在 Vistaar 基准中明显改善了考虑到的 ASR