多模式语音识别的细粒度对齐
最近的研究表明大型语言模型在自动语音识别的纠错方面的有效性,但大部分研究集中在英语上。本文将目光转向中国语言,并构建了一个专门用于纠正中文自动语音识别错误的基准数据集,其中包含了广泛的场景和显著的挑战。随后,我们使用该数据集进行了初步评估,包括直接提示和微调预训练的大型语言模型。此外,我们提出了一种简单的拼音规范化方法,通过从文本假设直接转录拼音。实验结果显示,与没有规范化的情况相比,拼音规范化始终提升了大型语言模型的纠错能力。该数据集已经在网站上提供。
Jul, 2024
使用前端适应网络来恢复数据包丢失,从而提高 ASR 模型的词错误率。在包丢失场景中,基于 Whisper 准则训练的适应网络显著降低了不同领域和语言的词错误率,同时对 Whisper 模型的基础性能影响很小,凸显了该方法在挑战性声学环境中提升 ASR 模型的实用性和潜力。
Jun, 2024
该研究以机器翻译和自动语音识别系统为基础,探索埃及阿拉伯语和英语的代码切换现象,并提供了关于开发这些系统的方法学,使用了 LLama 和 Gemma 等大规模语言模型。该研究实验了 Whisper 模型在代码切换的埃及阿拉伯语识别中的应用,详细介绍了数据预处理和训练技术等实验过程。通过将自动语音识别与机器翻译相结合的连续语音转文本翻译系统的实现,研究旨在克服有限资源和埃及阿拉伯语方言的独特特点所带来的挑战。通过与已有指标的评估,我们的方法在英语翻译方面取得了 56% 的显著提高和 9.3% 的阿拉伯语翻译提高。由于代码切换在口头语言中是根深蒂固的,自动语音识别系统能够有效处理这一现象至关重要。这种能力对于实现各个领域的无缝交流至关重要,包括商务谈判、文化交流和学术讨论。我们的模型和代码可作为开源资源使用。
Jun, 2024
自动语音识别(ASR)是计算语言学的一个关键领域,主要研究开发能够使计算机将口语转换为文本的技术。该研究聚焦于开发基于 JavaScript 和 Node.js 的网络应用程序和语音识别的网络界面,使用监督学习训练改善语音识别的神经网络,并设计对声音信号进行准确对齐的新型反向传播方法。
Jun, 2024
本研究首次探索了自动语音识别领域中的动态数据修剪方法(DDP-ASR),通过动态选择 70%的数据,实现了与全部数据训练相当的性能,同时为语音相关数据集提供了细粒度的修剪选择,节省了高达 1.6 倍的训练时间。
Jun, 2024
通过提出一种新的强制对齐工具 FASA,可以从现有的嘈杂的儿童语音数据中提取高质量的对齐儿童语音数据,并显示 FASA 可以比人工标注提高数据质量 13.6 倍。
Jun, 2024
本文介绍了一种端到端的深度学习模型,用于将尼泊尔语音转录为文本的自动语音识别(ASR)。该模型在 OpenSLR(音频、文本)数据集上进行了训练和测试,使用了 MFCC 作为音频特征,采用了双向 LSTM 与 ResNet 和一维 CNN 相结合的模型,在所有经过训练的模型中取得了最好的结果。预测尼泊尔文本的最可能顺序使用了 CTC 算法进行训练和 CTC 束搜索解码。在测试数据集上,字符错误率(CER)达到了 17.06%。
Jun, 2024
通过提出一种名为连续模型编辑的新方法,本研究解决了自动语音识别系统中的领域迁移问题,并实验证明相对于基准微调和其他深度学习算法,该方法在减少词错误率和提高识别效率方面取得了显著的优势。
Jun, 2024
通过在视觉语言模型中引入 NOTICE 技术,实现了对其决策过程的透明化和可解释性,从而揭示了关键的决策因素和多模态整合中的中间层交叉注意力。
Jun, 2024
将大型语言模型(LLMs)集成到自动语音识别(ASR)和机器翻译(MT)系统中,通过利用 N-best 列表细化 ASR 输出和精炼 LLM 来提高翻译质量,实现了 ASR 和 MT 系统的性能改进。
Jun, 2024