甩手语识别的跨模态相互学习
Cued Speech (CS) 是一种纯视觉编码方法,用于辅助听障人士通过将读唇和手势组合以使口语可见。通过提出一种名为 Economical Cued Speech Fusion Transformer(EcoCued)的计算和参数高效的多模态融合变压器模型,该论文改进了自动 CS 识别(ACSR)的识别准确性和计算效率。
Jan, 2024
通过引入跨模态对话表示,结合预训练的语音和文本模型,扩展 Conformer 编码器 - 解码器模型,我们的方法能够提取更丰富的历史语音上下文,实现较标准 Conformer 模型相对准确度提升 8.8%(HKUST)和 23%(MagicData-RAMC)的结果。
Oct, 2023
本文介绍一种将唇读与手势结合的多模式视觉编码系统 ——Cued Speech(CS),并在此基础上提出了一种利用统计测量方法的可解释通用模型来预测手先时间(HPT)的方法。此外,对五位说话人的视频进行了注释,并发现手先现象存在于它们的产生中,同时也证明了方法的有效性。
Jun, 2023
该研究提出了一种音频 - 文本交叉模态表示提取器,通过 attention 机制,将上下文文本表示作为上下文提供给 ASR 解码器,有效地提高了智能语音识别的性能。
Jul, 2022
利用多模态表示,通过自动语音识别模型转录语音并通过预训练翻译模型将转录文本翻译成不同语言,结合文本和音频特征使用级联交叉模态变压器 (CCMT) 模型来实现语音分类任务,该模型在 ACM Multimedia 2023 计算语音学挑战中获得不错的性能,并在 Speech Commands v2 和 HarperValleyBank 对话数据集上超过了之前的研究成果。
Jan, 2024
本文提出一种基于预训练手部和唇部跟踪器和基于多流递归神经网络的语音解码器的方法,用于自动识别 Cued Speech(一种视觉交流工具),该工具可通过手势和唇读辅助理解口语。该系统在法国 CSF18 数据集上评估,准确率为 70.88%,表现优于 CNN-HMM 译码器并与更复杂的基线方法竞争。
Apr, 2022
本文提出了两种新技术来改善音视频语音识别,通过利用口型和音节级次字单元之间的相关性来建立良好的帧级音节边界并实现准确定位,以及利用音频引导的跨模态融合编码器神经网络来充分利用模态互补性。实验结果表明,使用相对较少的训练数据,该系统比复杂的前端和后端现有系统取得更好的性能。
Aug, 2023
提出了一种多层交叉注意力融合的视听语音识别方法,通过在不同的音频 / 视觉编码器层级融合各种模态,实现了每种模态的表示学习,实验结果表明该方法在 MISP2022-AVSR 挑战数据集上达到了新的拼接最小排列字符错误率 (cpCER) 为 30.57% 的性能,并相对于前期系统获得了最多 3.17% 的相对改进,同时超过了第一名系统,获得了该数据集上的新的最先进 cpCER 为 29.13%。
Jan, 2024
通过引入多语种音视频语音识别模型和快速调整器模型,提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练,达到了领先水平,并在 MuAViC 基准测试中显著减少了平均识别错误率。
Mar, 2024
本文提出了一种跨模态后处理系统,包括融合不同模态的声学特征和文本特征、联合置信度估计器和错误修正器以及统一的错误修正和话语拒绝模块等,证明相较于单模型或单任务模型,该系统更加有效率地减小语音识别中字符错误率 (CER),且每个单词的额外延迟在可接受范围内。
Jan, 2022