Jan, 2024

计算与参数高效的多模态融合 transformer 用于示意语音识别

TL;DRCued Speech (CS) 是一种纯视觉编码方法,用于辅助听障人士通过将读唇和手势组合以使口语可见。通过提出一种名为 Economical Cued Speech Fusion Transformer(EcoCued)的计算和参数高效的多模态融合变压器模型,该论文改进了自动 CS 识别(ACSR)的识别准确性和计算效率。