word error rate | BriefGPT - AI 论文速递

关键词word error rate

搜索结果 - 94

连接语音编码器和大型语言模型用于 ASR
该论文通过比较研究了三种常用的连接结构，包括全连接层、多头交叉注意力和 Q-Former，并对 Whisper 系列的语音编码器和 Vicuna 系列的大语言模型进行了实验，结果表明基于 Q-Former 的大语言模型相比其他连接结构在 L
PDF9 months ago
FL4ASR 中优化器引起的平滑性的重要性：解密端到端 ASR 的联邦学习
本文使用联邦学习训练端到端自动语音识别模型，并研究了减小联邦学习与集中学习之间的词错误率差距的基本考虑因素，包括自适应优化器、改变连接主义时间分类权重的损失特性、模型初始化、模型的设置以及针对异构数据分布的联邦学习特定超参数。我们阐明了一些
PDF9 months ago
Echotune：利用语音 ASR 任务中可变长度特性的模块化提取器
Transformer 架构已被证明在自动语音识别（ASR）任务中非常有效，成为该领域大量研究的基础组件。我们提出了 Echo-MSA，这是一个灵活模块，配备有可变长度的注意力机制，适应不同复杂性和持续时间的语音样本。我们的评估结果表明，将
PDF10 months ago
Convoifilter：一项关于进行鸡尾酒会话语音识别的案例研究
该论文提出了一种端到端模型，旨在改进在拥挤嘈杂环境中特定讲话者的自动语音识别（ASR）。该模型利用单通道语音增强模块将讲话者的声音与背景噪音隔离，并结合了 ASR 模块。通过这种方法，该模型能够将 ASR 的识别错误率（WER）从 80％降
PDF10 months ago
使用 XLSR-53 的印尼语自动语音识别
本研究基于 XLSR-53 预训练模型开发了印尼自动语音识别（ASR）系统，使用该模型能显著减少所需的非英语语言训练数据以达到竞争性的词错误率。研究使用了总计 24 小时、18 分钟、1 秒的数据，通过使用语言模型可以将词错误率从 20％降
PDF10 months ago
全球归一化模型的流式语音识别系统
拟稿提议使用全局标准化来解决流式模型的数学缺陷，从而缩小流式模式和前瞻模式之间的差距。全局标准化可将词错误率相对降低 9-11%。
PDFa year ago
OxfordVGG 参加 EGO4D AV 转录挑战
这篇报告介绍了我们（OxfordVGG 团队）参与 EGO4D 音频 - 视觉自动语音识别挑战 2023 的技术细节。我们提出了 WhisperX 系统，用于高效转录长篇音频，并具有单词级别的时间对齐，同时还提供了两个公开可用的文本规范化器
PDFa year ago
离线文本识别的作者适应性：基于神经网络方法的探索
手写识别中，深度学习取得了显著成就。然而，神经网络在处理数据分布转变时存在问题。本文讨论如何使手写识别模型能够自适应不同风格的书写，通过使用少量新人笔迹的例子进行适应。通过两种基本模型以及模型无关元学习和作家代码两种方法，实验结果表明 Me
PDFa year ago
使用 GMM 进行语音分离与 ASR
本文探讨语音分离和自动语音识别两个主题。我们使用高斯混合模型和距离阈值作为停止标准来实现语音分离，在自动语音识别方面通过分析语音信号并考虑声音频率达到最小化词错误率指标的目标。
PDFa year ago
用声学前瞻改进 RNN-Transducers
本文介绍一种名为 lookahead 的技术，它通过向后查看传入音频，使文本表示更具有声学基础，从而在域内外评估集上显着降低了 5％- 20％的词错误率。
PDFa year ago
与目标对齐：利用通用即插即用框架优化 CTC 模型所需属性
提出了一种名为 $ extit {Align With Purpose}$ 的通用 Plug-and-Play 框架用于在 Automatic Speech Recognition 等领域中，通过 CTC 和附加的损失项优化各种功能，例如发
PDFa year ago
基于大规模语言模型的长篇数据重打分
研究表明，在使用大规模语言模型的情况下，对于长篇 ASR 测试集，可以使 Word Error Eate 和 Salient Term Error Rate 分别减少 8% 和 30%。
PDFa year ago
DCTX-Conformer: 用于低延迟统一流和非流 Conformer 的动态上下文传递
通过动态上下文传递机制，提高端到端模型在自动语音识别领域的性能。
PDFa year ago
自动语音识别中替代 CNN 前端的多视角频率 - 注意力算法
采用 F-Attention 模块替代卷积神经网络前端，在语音识别系统中全局关注频率可以显著减少相对字错率。
PDFa year ago
ACL关于日语语音识别的宽松评估：建模自然发生的拼写不一致性
本研究提出了一种新的宽松的评价模型作为日语自动语音识别的更具潜力的 CER 测量，通过利用词汇量，文本处理计算机系统以及神经机器翻译模型对参考转录文本进行了合理重写。
PDFa year ago
在转换器中使用统一的语音 - 文本表示进行仅限于文本的域自适应
本研究提出了一种方法 —— 学习统一的语音文本表示，在端到端的语音识别中实现快速适应，该方法可以使用文本语料库进行域自适应，同时还可以改善适应的效率，并与内部语言模型估计相结合，进一步提高性能。
PDFa year ago
流式混淆网络语音识别
本文提出了一种新型流式自动语音识别架构，可输出混淆网络并保持有限的延迟，以满足交互式应用的需要，其 1-best 结果与可比较的 RNN-T 系统相当，而更丰富的假设集允许进行第二遍重评分，以在 LibriSpeech 任务上实现 10-2
PDFa year ago
利用 CLS 和语言标注来增强多语种 ASR 的 Tag-Team 方法
研究了基于通用标签集合（CLS）的多语言 ASR 的性能提升，通过给 ASR 模型添加语言 ID 或使用 CLS 到本地脚本转换器，可以将特定的语言信息注入到 ASR 模型中。这些方法与基线模型相比在词错误率上得到了显着改善，并在分布数据上
PDFa year ago
使用树形约束的指针生成器图神经网络进行上下文 ASR
本文提出了一种基于图神经网络编码的端到端上下文自动语音识别新方法，通过树限制指针生成方法，将上下文知识中的偏向词整合到识别过程中，显著降低了词误率。
PDFa year ago
将语音技术扩展至 1000 多种语言
通过基于宗教文本的新数据集和有效利用自监督学习的方法，Massively Multilingual Speech（MMS）项目构建了包括 1406 种语言的预训练 wav2vec 2.0 模型、1107 种语言的单一多语言自动语音识别模型、
PDFa year ago