多模式语音识别的细粒度对齐

EMNLPOct, 2020

Fine-Grained Grounding for Multimodal Speech Recognition

Tejas Srinivasan, Ramon Sanabria, Florian Metze, Desmond Elliott

TL;DR本篇研究使用自动物体提议从图像的不同区域提取更精细的视觉信息，以改善多模式自动语音识别的效果并增强对语音中覆盖物的实体恢复能力。实验表明该模型可以定位正确的提议，提取更多的相关单词（如形容词），进而实现更好的识别效果。

Abstract

Multimodal automatic speech recognition systems integrate information from images to improve speech recognition quality, by grounding the speech in the visual context. While visual signals have been shown to be useful for recovering entities that have been masked in the audio, these mo

automatic speech recognition multimodal integration visual information object proposals entity recovery

发现论文，激发创造

中文语音识别中大语言模型的拼音规范化纠错

最近的研究表明大型语言模型在自动语音识别的纠错方面的有效性，但大部分研究集中在英语上。本文将目光转向中国语言，并构建了一个专门用于纠正中文自动语音识别错误的基准数据集，其中包含了广泛的场景和显著的挑战。随后，我们使用该数据集进行了初步评估，包括直接提示和微调预训练的大型语言模型。此外，我们提出了一种简单的拼音规范化方法，通过从文本假设直接转录拼音。实验结果显示，与没有规范化的情况相比，拼音规范化始终提升了大型语言模型的纠错能力。该数据集已经在网站上提供。

Jul, 2024

利用前端适应网络增强 ASR 对丢包的鲁棒性

使用前端适应网络来恢复数据包丢失，从而提高 ASR 模型的词错误率。在包丢失场景中，基于 Whisper 准则训练的适应网络显著降低了不同领域和语言的词错误率，同时对 Whisper 模型的基础性能影响很小，凸显了该方法在挑战性声学环境中提升 ASR 模型的实用性和潜力。

Jun, 2024

ArzEn-LLM: 使用 LLM 进行代码切换的埃及阿拉伯语 - 英语翻译和语音识别

该研究以机器翻译和自动语音识别系统为基础，探索埃及阿拉伯语和英语的代码切换现象，并提供了关于开发这些系统的方法学，使用了 LLama 和 Gemma 等大规模语言模型。该研究实验了 Whisper 模型在代码切换的埃及阿拉伯语识别中的应用，详细介绍了数据预处理和训练技术等实验过程。通过将自动语音识别与机器翻译相结合的连续语音转文本翻译系统的实现，研究旨在克服有限资源和埃及阿拉伯语方言的独特特点所带来的挑战。通过与已有指标的评估，我们的方法在英语翻译方面取得了 56% 的显著提高和 9.3% 的阿拉伯语翻译提高。由于代码切换在口头语言中是根深蒂固的，自动语音识别系统能够有效处理这一现象至关重要。这种能力对于实现各个领域的无缝交流至关重要，包括商务谈判、文化交流和学术讨论。我们的模型和代码可作为开源资源使用。

Jun, 2024

自动语音识别系统 —— 印地语

自动语音识别（ASR）是计算语言学的一个关键领域，主要研究开发能够使计算机将口语转换为文本的技术。该研究聚焦于开发基于 JavaScript 和 Node.js 的网络应用程序和语音识别的网络界面，使用监督学习训练改善语音识别的神经网络，并设计对声音信号进行准确对齐的新型反向传播方法。

Jun, 2024

自动语音识别的动态数据修剪

本研究首次探索了自动语音识别领域中的动态数据修剪方法（DDP-ASR），通过动态选择 70％的数据，实现了与全部数据训练相当的性能，同时为语音相关数据集提供了细粒度的修剪选择，节省了高达 1.6 倍的训练时间。

Jun, 2024

FASA：一种用于提取高质量对齐儿童语音数据的灵活自动对齐器

通过提出一种新的强制对齐工具 FASA，可以从现有的嘈杂的儿童语音数据中提取高质量的对齐儿童语音数据，并显示 FASA 可以比人工标注提高数据质量 13.6 倍。

Jun, 2024

使用 CNN、双向 LSTM 和 ResNet 的尼泊尔语自动语音识别

本文介绍了一种端到端的深度学习模型，用于将尼泊尔语音转录为文本的自动语音识别（ASR）。该模型在 OpenSLR（音频、文本）数据集上进行了训练和测试，使用了 MFCC 作为音频特征，采用了双向 LSTM 与 ResNet 和一维 CNN 相结合的模型，在所有经过训练的模型中取得了最好的结果。预测尼泊尔文本的最可能顺序使用了 CTC 算法进行训练和 CTC 束搜索解码。在测试数据集上，字符错误率（CER）达到了 17.06%。

Jun, 2024

语音识别模型的终身训练的连续编辑

通过提出一种名为连续模型编辑的新方法，本研究解决了自动语音识别系统中的领域迁移问题，并实验证明相对于基准微调和其他深度学习算法，该方法在减少词错误率和提高识别效率方面取得了显著的优势。

Jun, 2024

VLM 注意到了什么？一个用于无噪音文本 - 图像破坏与评估的机制可解释性流程

通过在视觉语言模型中引入 NOTICE 技术，实现了对其决策过程的透明化和可解释性，从而揭示了关键的决策因素和多模态整合中的中间层交叉注意力。

Jun, 2024

将 LLMs 融入级联语音翻译：KIT 离线语音翻译系统在 IWSLT 2024 中的应用

将大型语言模型（LLMs）集成到自动语音识别（ASR）和机器翻译（MT）系统中，通过利用 N-best 列表细化 ASR 输出和精炼 LLM 来提高翻译质量，实现了 ASR 和 MT 系统的性能改进。

Jun, 2024