CI-AVSR: 一份用于汽车指令识别的粤语音频视觉语音数据集

Jan, 2022

CI-AVSR: 一份用于汽车指令识别的粤语音频视觉语音数据集

CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recognition

Wenliang Dai, Samuel Cahyawijaya, Tiezheng Yu, Elham J. Barezi, Peng Xu...

TL;DR本文提出了一个新的中文粤语数据集 - Cantonese In-car Audio-Visual Speech Recognition (CI-AVSR)，用于研究车内指令识别。使用视觉和音频数据来识别汽车相关的指令，并采用常见的车内背景噪声进行数据增强来模拟真实环境，同时还实现了两种多模态基线以证明数据集的有效性和可行性。

Abstract

With the rise of deep learning and intelligent vehicle, the smart assistant has become an essential in-car component to facilitate driving and provide extra functionalities. In-car smart assistants should be able to process general as well as car-related commands and perform corresponding actions, which eases driving and improves safety. However, there is a

in-car smart assistant cantonese language audio-visual speech recognition dataset multimodal baselines

发现论文，激发创造

Kaggle 竞赛：用于车内指令的粤语视听语音识别

研究智能车辆的深度学习与智能化，提供车辆相关信息和增强性能至关重要。然而目前，这个领域的大部分数据集往往只有英语和中文存在，这妨碍了更广泛社群的研究与应用。为了解决这一问题，本文提出了一种应对低资源语言识别问题的方法，即使用视听数据进行广东话语音识别。

Jul, 2022

ViSpeR: 多语言音视频语音识别

该研究在中文、西班牙语、英语、阿拉伯语和法语这五种常用语言上，对音视频语音识别（AVSR）进行了广泛而详细的研究。通过收集大规模的数据集并进行有监督学习模型的训练，在多语言环境中训练的 ViSpeR 模型在每种语言的最新基准测试中表现出竞争力。该研究通过提供数据集和模型给研究社区，旨在为音视频语音识别领域的进一步研究和探索奠定基础。

May, 2024

MAVD：首个带深度信息的开放式大规模普通话视听数据集

这项工作旨在建立 MAVD，这是一个新的大规模普通话多模态语料库，包括由 64 名中国本土说话者发出的 12,484 个话语，其中包括深度信息，可用于评估音频视觉语音识别的有效性。

Jun, 2023

CNVSRC 2023 中的视觉语音识别的 NPU-ASLP-LiAuto 系统描述

本文介绍了 NPU-ASLP-LiAuto（第 237 队）在 2023 年中国连续视觉语音识别挑战赛中引入的视觉语音识别（VSR）系统，涉及单说话人 VSR 任务的固定和开放跟踪，以及多说话人 VSR 任务的开放跟踪。实验结果表明，在多系统融合后，我们的系统在单说话人任务上实现了 34.76% 的 CER，在多说话人任务上实现了 41.06% 的 CER，在我们参与的所有三个跟踪中排名第一。

Jan, 2024

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

鲁棒性自监督视听语音识别

本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架，利用 LRS3 数据集的少量标记数据，在噪音干扰的情况下提高了超过 50% 的性能，并且比基于音频的模型将词错误率减少了 75% 以上。

Jan, 2022

粤语自动语音识别数据集：调查与新数据集

本研究利用多领域广泛覆盖的香港粤语语料库 (MDCC)，采用多数据集学习技术提高 Fairseq S2T Transformer 自动语音识别模型在香港粤语方言中的有效性。

Jan, 2022

SlideAVSR：用于视听语音识别的论文解释视频数据集

通过构建 SlideAVSR 数据集，这篇论文提出了一种用于科学论文解释视频的 AVSR 数据集，旨在为模型提供在演示录音中将语音话语转录为滑动演示文本的基准评估。同时，论文还介绍了一种名为 DocWhisper 的简单但有效的 AVSR 模型，它可以参考来自幻灯片的文本信息，并在 SlideAVSR 数据集上验证其有效性。

Jan, 2024

音频 - 视觉场景感知对话的简单基线

本文提出了一种基于数据驱动学习的音视频感知对话基准方法，采用注意力机制从海量传感器中区分实用信号和干扰信号，实验结果表明此方法在音视频感知数据集中性能超过现有最先进方法 20% 以上。

Apr, 2019

2023 CNVSRC 挑战赛 GUA-Speech 系统介绍

这项研究描述了我们在 2023 年中国持续视觉语音识别挑战赛中针对任务 1 单说话者视觉语音识别（VSR）固定轨道的系统。具体来说，我们在模型中使用中间连接主义时间分类（Inter CTC）残差模块来放宽 CTC 的条件独立性假设，然后使用双变压器解码器使模型能够捕捉过去和未来的上下文信息。此外，我们使用汉字作为建模单元来提高模型的识别准确性。最后，在推断阶段，我们使用了递归神经网络语言模型（RNNLM）进行浅层融合。实验表明，我们的系统在评估集上的字符错误率（CER）为 38.09%，相对于官方基准线减少了 21.63%，并在挑战赛中获得了第二名。

Dec, 2023