HYKIST 项目中越南语自动语音识别的无监督预训练

Sep, 2023

HYKIST 项目中越南语自动语音识别的无监督预训练

Unsupervised Pre-Training for Vietnamese Automatic Speech Recognition in the HYKIST Project

Khai Le-Duc

TL;DR通过开发音频识别和机器翻译系统以改善医患沟通，该研究旨在为解决医疗领域的语言难题提供支持，探讨训练计划和数据整合策略，以优化性能。

Abstract

In today's interconnected globe, moving abroad is more and more prevalent, whether it's for employment, refugee resettlement, or other causes. Language difficulties between natives and immigrants present a common issue on a daily basis, especially in medical domain. This can make it di

speech translation system patient-doctor communication asr mt medical domain

发现论文，激发创造

低资源医疗领域会话电话语音的混合 ASR 系统开发

在医疗领域中，德语医生与阿拉伯或越南语患者间的患者 - 医生交流，由于语言屏障会导致沟通困难和延误，为了支持非专业双语翻译，该研究开发了一个自动语音翻译系统，该系统能够帮助改善患者护理并克服语言障碍。研究者针对两种语言对中的医疗领域的电话会话语音翻译任务进行了 ASR 系统开发。

Oct, 2022

利用大型预训练模型实现低资源语音识别的高效使用

本研究探讨了在越南语和德语的医疗领域低资源对话电话语音语料库中使用无监督方法进行预训练，并讨论了如何适应实际的电话任务，包括带宽传输和不同的数据条件，该方法超过了基线 22% 的相对性能。

Oct, 2022

VietMed：越南医学领域智能语音识别的数据集和基准

VietMed 是目前世界上最大的公共医学语音识别数据集，涵盖了语音数据、医学领域、越南语、预训练模型等方面，同时还包含涉及 ICD-10 疾病群和国内不同口音的数据。

Apr, 2024

使用视语言预训练模型提高医学语音转文本的准确性

提出一种基于 Vision Language Pre-training 方法的医疗方面的文本校正方法，以解决由于数据不足而难以开发医学领域的语音转文本模型的问题，并展示多模态理解图像和文本信息优于仅使用文本信息的单模态的性能。

Feb, 2023

自动语音识别（ASR）用于韩国儿童言语音障碍发音诊断

本研究提出了一种自动语音识别模型，旨在诊断具有言语音韵障碍（SSDs）的儿童的发音问题，以替代临床操作中的人工转录。该模型使用 wav2vec 2.0 XLS-R 模型进行改进，以识别实际发音而不是已有单词，并通过与人工标注相匹配的预测准确性达到约 90% 的水平。尽管该模型在识别不清晰发音方面仍需改进，但本研究表明 ASR 模型能够简化临床领域中的复杂发音错误诊断流程。

Mar, 2024

多语音预训练中的语言通用语音表示法用于小资源语音识别

本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能，其中采用国际音标（IPA）多语言模型为无标签语音创建帧级伪标签，并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明，该方法在所有目标语言上均优于标准 HuBERT，并且在 3 种语言中表现更佳，同时最多能够节省 1.5k 小时（75%）有监督训练数据。

May, 2023

朝向无需发音模型的无监督语音识别

本研究采用不依赖音素词典的新方法，通过仅包含高频英语词汇的语料库，在没有配对语音和文字数据的情况下，实现了近 20% 的词错误率，并证明了基于联合语音到语音和文本到文本的标记填充技术，使得无监督语音识别系统的性能超过了直接分布匹配方法。

Jun, 2024

简单有效的无监督语音翻译

本文利用无监督语音识别、机器翻译与语音合成技术，探讨实现无标注数据建立语音翻译系统的方法，通过管道方法或生成伪标签，对端到端语音翻译模型进行训练。同时，提出一种无监督域自适应方法，能够提供一定的性能提升。实验结果表明，本文提出的无监督语音翻译方法，在 Libri-Trans 基准测试的 BLEU 分数上超过以前报告的无监督效果的 3.2 个点，在 CoVoST2 数据集上，本文的最佳系统相对于最佳监督学习的端到端模型（无预训练），在五个语种（X-En）上平均提高 5.0 个 BLEU 分数。在 MuST-C 和 CVSS 基准测试上，本文也取得了有竞争力的结果。

Oct, 2022

孟加拉语生物医学数据的自动语音识别

该研究提出了一个专门针对孟加拉生物医学数据开发的自动语音识别（ASR）原型系统。该系统针对孟加拉语和西利特语两种重要方言，培训和评估了两个流行的 ASR 框架，旨在为数字健康应用创建可部署的健康领域 ASR 系统，从而提高非技术用户在医疗保健领域的可访问性。

Jun, 2024

面向东南亚语言的云自动语音识别系统

介绍我们为东南亚语言开发的自动语音识别系统，以印尼语和泰语为例解释了收集语音和文本资源所需的各种策略。

Oct, 2022