使用视语言预训练模型提高医学语音转文本的准确性

Feb, 2023

使用视语言预训练模型提高医学语音转文本的准确性

Improving Medical Speech-to-Text Accuracy with Vision-Language Pre-training Model

Jaeyoung Huh, Sangjoon Park, Jeong Eun Lee, Jong Chul Ye

TL;DR提出一种基于 Vision Language Pre-training 方法的医疗方面的文本校正方法，以解决由于数据不足而难以开发医学领域的语音转文本模型的问题，并展示多模态理解图像和文本信息优于仅使用文本信息的单模态的性能。

Abstract

automatic speech recognition (ASR) is a technology that converts spoken words into text, facilitating interaction between humans and machines. One of the most common applications of ASR is Speech-To-Text (STT) technology, which simplifies user workflows by transcribing spoken words int

automatic speech recognition speech-to-text technology medical-domain text correction vision language pre-training multi-modal understanding

发现论文，激发创造

医疗的声音：利用大型语言模型提高医学转录自动语音识别准确性

本研究探讨了大型语言模型（LLMs）在医学转录中提高自动语音识别（ASR）系统准确性的潜力，通过使用 PriMock57 数据集对 ASR 生成的转录进行改善，改进了一般词错误率（WER）、医学概念错误率（MC-WER）和音频流分离准确性，同时通过比较不同提示技术在日记化和纠错准确性上的有效性，发现 LLMs 特别是 Chain-of-Thought（CoT）提示技术不仅改善了现有 ASR 系统的日记化准确性，而且在医学转录领域取得了卓越表现，从而更准确地捕捉医学概念并提高转录对话的语义连贯性，这些发现表明 LLMs 在增强 ASR 输出的同时，也在转录任务中独立取得了显著成果，为改进医学 ASR 系统、提高医疗保健领域的病患记录的准确性和可靠性带来巨大的希望。

Feb, 2024

自动语音识别系统 —— 印地语

自动语音识别（ASR）是计算语言学的一个关键领域，主要研究开发能够使计算机将口语转换为文本的技术。该研究聚焦于开发基于 JavaScript 和 Node.js 的网络应用程序和语音识别的网络界面，使用监督学习训练改善语音识别的神经网络，并设计对声音信号进行准确对齐的新型反向传播方法。

Jun, 2024

HYKIST 项目中越南语自动语音识别的无监督预训练

通过开发音频识别和机器翻译系统以改善医患沟通，该研究旨在为解决医疗领域的语言难题提供支持，探讨训练计划和数据整合策略，以优化性能。

Sep, 2023

高资源语音识别预训练改进低资源语音到文本翻译

本文研究通过使用大量训练数据的自动语音识别任务，对语音翻译进行预训练，以提高低资源环境下的语音翻译性能，其中预训练的声学模型起到了关键的作用，并且可用于不同语言对之间的翻译。经验证本方法效果显著，能够在真实的低资源任务中提高性能。

Sep, 2018

利用预训练语言模型生成人类可读的自动语音识别转录

本文提出了一个自动语音识别后处理模型，旨在将不正确和嘈杂的 ASR 输出转换为可读的文本，并使用元数据提取语料库构建了一种任务特定的数据集，并使用两阶段训练策略来微调 RoBERTa 预训练模型。在测试集上，我们的模型在可读性感知 WER（RA-WER）上比基线模型提高了 13.26％，在 BLEU 度量上提高了 17.53％。人类评估还证明我们的方法可以生成比基线更易读的转录本。

Feb, 2021

逐步提升语音识别和语音转换

本论文中，我们提出了一种新颖的迭代方法，用于同时提高自动语音识别模型和语音转换模型。我们在低数据资源情况下，通过使用语音转换模型作为数据增强方法来进一步微调 ASR 模型，从而实验性地展示了两个模型的性能提高。

May, 2023

在高度类别不平衡的情境中创建一个 ASR 错误强健的口语虚拟病人系统，不使用语音数据

本研究提出了一种新的训练方法，该方法可以在单个对话代理中有效地解决测试数据中存在自动语音识别错误和 SLU 训练数据中存在高度类别不平衡问题的问题，并通过 ASR 错误预测器从文本数据中生成口语数据，显著改进了各种字错误率设置下 VP 的意图分类任务的性能。

Apr, 2022

ViLaS: 将视觉和语言集成到自动语音识别中

提出一种多模态自动语音识别模型（ViLaS），能够同时或分别集成视觉和语言线索来帮助识别输入语音，提出一种训练策略，从而提高在模态不完整的测试场景中的性能，并创建一个包含视觉和语言线索的多模态 ASR 数据集（VSDial），探索融合视觉和语言的效果。在 Flickr8K 和自构架构的 VSDial 数据集上进行实证结果报告，调查跨模态融合方案，并对 VSDial 上的细粒度跨模态对齐进行分析。

May, 2023

医学视觉语言预训练用于脑部异常

本研究旨在展示如何从公共资源如 PubMed 中自动收集医学图像与文本对齐数据，构建用于具体医学任务的高性能视觉语言模型，并解决医学领域中子图到子标题的映射问题。

Apr, 2024

野外多语言视觉语音识别

本文旨在通过视觉手势识别来实现基于嘴唇运动的语音识别，通过优化模型设计和参数，加入额外任务，并增加数据扩充，提高模型性能，实现在不同语言下超越以前的所有基于公开数据集的模型表现，并比训练基于非公开数据集的模型表现更好。

Feb, 2022