精确安全交易的数字微模型

Feb, 2024

Digits micro-model for accurate and secure transactions

Chirag Chhablani, Nikhita Sharma, Jordan Hosier, Vijay K. Gurbani

TL;DR我们的研究致力于创建数字识别的微型模型，以处理反映现实世界发音模式的不同讲话样式，并且相较于商业或开源的 ASR 系统，我们的微型模型在识别数字方面减少了错误率（我们最佳微型模型的错误率为 1.8%，而 Whisper 错误率为 5.8%），而且占用的内存空间较低（我们的模型为 0.66 GB VRAM，而 Whisper 为 11 GB VRAM）。

Abstract

automatic speech recognition (ASR) systems are used in the financial domain to enhance the caller experience by enabling natural language understanding and facilitating efficient and intuitive interactions. Increasing use of ASR systems requires that such systems exhibit very low error

automatic speech recognition asr systems micro models number recognition digit recognition

发现论文，激发创造

自动语音识别系统 —— 印地语

自动语音识别（ASR）是计算语言学的一个关键领域，主要研究开发能够使计算机将口语转换为文本的技术。该研究聚焦于开发基于 JavaScript 和 Node.js 的网络应用程序和语音识别的网络界面，使用监督学习训练改善语音识别的神经网络，并设计对声音信号进行准确对齐的新型反向传播方法。

Jun, 2024

Google USM：扩展超过 100 种语言的自动语音识别

本论文介绍了通用语音模型（USM），它能够在 100 多种语言中自动识别语音，并使用多语言预训练和随机投影量化等技术来实现跨语言自动语音识别和语音到文本转换这些任务的最先进水平。同时，本文证明使用少量的标记数据集进行训练的 USM 模型在很多语言的领域内和领域外的语音识别任务中表现出了与 Whisper 模型相当或更好的性能。

Mar, 2023

面向特定领域语音识别的深度学习系统

使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型，提出了基于领域的语音自动识别系统，并通过半监督机器注释的方式收集领域特定的数据，研究结果表明，该系统即使在具有更高的字词错误率的情况下，性能仍优于商业自动语音识别系统，且在人工转录的结果上也呈现出类似的效果。同时，也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。

Mar, 2023

仅用于困难音频的大模型：高效推理的样本相关私语模型选择

基于自动语音识别（ASR）领域中模型尺寸和推理成本的观察，通过训练一个决策模块，可以在测试数据的大部分模块上使用最小的足够模型达到良好的转录效果，从而实现了相当大的计算节省和性能提升。

Sep, 2023

动态环境下的短期词汇学习

本文研究了如何动态地获取重要的词汇以及将重要的关键词从支持性文档中提取并用于标记单词记忆，以显著提高新词的检测率，并在只添加少量单词的情况下仅轻微增加误报率。

Mar, 2022

工业级多语种自动语音识别的解剖

描述了 AssemblyAI 的工业规模自动语音识别（ASR）系统的结构和性能优势，包括模型架构、词错误率、代码切换能力等关键方面。

Apr, 2024

优化端到端自动语音识别在数字序列上的性能

本文研究使用文本到语音系统和小型神经网络来解决在设备上语音识别中模型训练的问题，以提高 E2E 模型在数字数据上的性能表现。

Jul, 2019

利用支持性文本数据启动有限转录的自动语音识别系统开发

本文研究发现，使用不同数量的文本数据进行训练和 fine-tune transformer model 可以降低自动语音识别（ASR）的 word error rate，其中 lexicon 对于改善 ASR 性能没有多大作用，而使用必要量的文本数据可以通过利用自然语言处理技术使自动语音识别接近人类的水平。

Feb, 2023

将 ASR 基础模型用于口语评估的适应

本文详细分析了 Whisper 输出，并提出了精细调整和软提示调整两种解决方案，实验证明我们可以有效地改变 Whisper 的解码行为，生成与口语回答中准确的单词。

Jul, 2023

通过自动语音识别在小学中进行阅读疏忽检测

本研究探讨了现有的最先进预训练自动语音识别（ASR）模型在识别荷兰语为母语的儿童语音和检测阅读错误方面的效果，发现 Hubert Large 在荷兰语儿童语音识别方面达到最佳表现（23.1% 的音位级错误率），而 Whisper（Faster Whisper Large-v2）则在词级表现最佳（9.8% 的词错误率）。此外，Wav2Vec2 Large 和 Whisper 是用于阅读错误检测的两个最佳 ASR 模型，其中 Wav2Vec2 Large 的召回率最高（0.83），而 Whisper 的精确度和 F1 得分均为 0.52。

Jun, 2024