HYKIST 项目中越南语自动语音识别的无监督预训练
在医疗领域中,德语医生与阿拉伯或越南语患者间的患者 - 医生交流,由于语言屏障会导致沟通困难和延误,为了支持非专业双语翻译,该研究开发了一个自动语音翻译系统,该系统能够帮助改善患者护理并克服语言障碍。研究者针对两种语言对中的医疗领域的电话会话语音翻译任务进行了 ASR 系统开发。
Oct, 2022
本研究探讨了在越南语和德语的医疗领域低资源对话电话语音语料库中使用无监督方法进行预训练,并讨论了如何适应实际的电话任务,包括带宽传输和不同的数据条件,该方法超过了基线 22% 的相对性能。
Oct, 2022
VietMed 是目前世界上最大的公共医学语音识别数据集,涵盖了语音数据、医学领域、越南语、预训练模型等方面,同时还包含涉及 ICD-10 疾病群和国内不同口音的数据。
Apr, 2024
提出一种基于 Vision Language Pre-training 方法的医疗方面的文本校正方法,以解决由于数据不足而难以开发医学领域的语音转文本模型的问题,并展示多模态理解图像和文本信息优于仅使用文本信息的单模态的性能。
Feb, 2023
本研究提出了一种自动语音识别模型,旨在诊断具有言语音韵障碍(SSDs)的儿童的发音问题,以替代临床操作中的人工转录。该模型使用 wav2vec 2.0 XLS-R 模型进行改进,以识别实际发音而不是已有单词,并通过与人工标注相匹配的预测准确性达到约 90% 的水平。尽管该模型在识别不清晰发音方面仍需改进,但本研究表明 ASR 模型能够简化临床领域中的复杂发音错误诊断流程。
Mar, 2024
本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能,其中采用国际音标(IPA)多语言模型为无标签语音创建帧级伪标签,并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明,该方法在所有目标语言上均优于标准 HuBERT,并且在 3 种语言中表现更佳,同时最多能够节省 1.5k 小时(75%)有监督训练数据。
May, 2023
本研究采用不依赖音素词典的新方法,通过仅包含高频英语词汇的语料库,在没有配对语音和文字数据的情况下,实现了近 20% 的词错误率,并证明了基于联合语音到语音和文本到文本的标记填充技术,使得无监督语音识别系统的性能超过了直接分布匹配方法。
Jun, 2024
本文利用无监督语音识别、机器翻译与语音合成技术,探讨实现无标注数据建立语音翻译系统的方法,通过管道方法或生成伪标签,对端到端语音翻译模型进行训练。同时,提出一种无监督域自适应方法,能够提供一定的性能提升。实验结果表明,本文提出的无监督语音翻译方法,在 Libri-Trans 基准测试的 BLEU 分数上超过以前报告的无监督效果的 3.2 个点,在 CoVoST2 数据集上,本文的最佳系统相对于最佳监督学习的端到端模型(无预训练),在五个语种(X-En)上平均提高 5.0 个 BLEU 分数。在 MuST-C 和 CVSS 基准测试上,本文也取得了有竞争力的结果。
Oct, 2022
该研究提出了一个专门针对孟加拉生物医学数据开发的自动语音识别(ASR)原型系统。该系统针对孟加拉语和西利特语两种重要方言,培训和评估了两个流行的 ASR 框架,旨在为数字健康应用创建可部署的健康领域 ASR 系统,从而提高非技术用户在医疗保健领域的可访问性。
Jun, 2024