VietMed：越南医学领域智能语音识别的数据集和基准

COLINGApr, 2024

VietMed：越南医学领域智能语音识别的数据集和基准

VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain

Khai Le-Duc

TL;DRVietMed 是目前世界上最大的公共医学语音识别数据集，涵盖了语音数据、医学领域、越南语、预训练模型等方面，同时还包含涉及 ICD-10 疾病群和国内不同口音的数据。

Abstract

Due to privacy restrictions, there's a shortage of publicly available speech recognition datasets in the medical domain. In this work, we present VietMed - a vietnamese →

speech recognition vietnamese medical domain dataset pre-trained models

发现论文，激发创造

医学口述实体识别

使用预训练多语言模型 XLM-R，在医学领域的首个口头命名实体识别（Spoken Named Entity Recognition）数据集 VietMed-NER 上取得了最佳表现。

Jun, 2024

ViMQ：面向医疗对话系统开发的越南医疗问题数据集

本研究发布了一个越南的医疗问题数据集，具有句子层次和实体层次的注释，旨在改善基于任务的医疗聊天机器人对病人问题的理解能力，并提出了一种自监督的训练策略。

Apr, 2023

HYKIST 项目中越南语自动语音识别的无监督预训练

通过开发音频识别和机器翻译系统以改善医患沟通，该研究旨在为解决医疗领域的语言难题提供支持，探讨训练计划和数据整合策略，以优化性能。

Sep, 2023

医学对话的实时语音摘要

医患对话总结在识别与医学相关的信息中至关重要，本研究首次提出了用于工业实际应用的实时语音总结系统，并在会话中每 N 个语音表达后生成局部总结和会话结束后生成全局总结。我们的系统可以从商业角度提升用户体验，同时从技术角度降低计算成本。此外，我们还提出了第一个用于医学对话的语音总结数据集 VietMed-Sum，并首次利用 LLM 和人工标注者共同创建了医学对话总结的黄金标准和合成总结。最后，我们给出了 VietMed-Sum 上最先进模型的基准结果。在线上可以获取所有代码、数据（英语翻译和越南语）和模型。

Jun, 2024

一个高质量且大规模的英越语音翻译数据集

本研究介绍了一个高质量和大规模的英越语音翻译基准数据集，并使用强基线进行实证实验，发现传统的 “级联” 方法仍然优于现代的 “端到端” 方法，这是有关大规模英越语音翻译的第一项研究，我们的数据集和研究可用于未来研究和应用的起点。

Aug, 2022

通过大规模翻译丰富低资源语言的生物医学知识

本研究使用英越翻译模型将生物医学数据和基准转化为越南语，并利用大规模的越南语翻译数据训练得到了 ViPubmedT5 编解码 Transformer 模型，该模型在医学摘要和首字母缩写消歧方面取得了最先进的成果，并发布了 ViMedNLI 数据集用于 NLP 任务。

Oct, 2022

改善越南 - 英文医学机器翻译

介绍了 MedEV 数据集，通过对其进行广泛实验，发现对于每个翻译方向，通过对 'vinai-translate' 进行微调，可以实现最佳性能，进而推动进一步的研究。

Mar, 2024

MedDialog：两个大规模医学对话数据集

本研究建立了两个大规模医疗对话数据集：MedDialog-EN 和 MedDialog-CN，它们分别包括英语和中文的病患与医生之间的对话，以帮助研究和开发医疗对话系统。这些数据集是迄今为止最大的医疗对话数据集。

Apr, 2020

MAVD：首个带深度信息的开放式大规模普通话视听数据集

这项工作旨在建立 MAVD，这是一个新的大规模普通话多模态语料库，包括由 64 名中国本土说话者发出的 12,484 个话语，其中包括深度信息，可用于评估音频视觉语音识别的有效性。

Jun, 2023

PhoMT: 一个高质量和大规模的越南语 - 英语机器翻译基准数据集

本文介绍了一个高质量、大规模的越南语 - 英语平行数据集，进行了机器翻译的比较实验，结果表明在预训练序列到序列去噪自编码器 mBART 上的微调获得了最好的性能，这是第一个大规模的越南语 - 英语机器翻译研究，希望这个公开的数据集和研究能成为未来越南语 - 英语机器翻译研究和应用的起点。

Oct, 2021