利用蒸馏和高效模型实现实用的唇读技术
本研究旨在改进当前用于野外孤立词识别的最先进模型,首先通过引入 TCN 替代 BGRU 层,简化训练过程,其次,提出变长度数据增强技术,最终在两个最大的公开数据集上展示了 1.2% 和 3.2% 的性能增益,这是最新的最先进性能。
Jan, 2020
本文旨在发展最先进的口型阅读模型,分别使用 LSTM 递归模型、全卷积模型和最近提出的 Transformer 模型,并通过 BBC-Oxford Lip Reading Sentences 2 (LRS2) 基准数据集的实验表明了本研究的最佳成果。
Jun, 2018
本研究探讨了一种 Knowledge Distillation 的新方法,即从神经网络和词汇知识库中提取语言信息,以提供大规模模型的高效替代方案,并提出了两种基于多个 teacher networks 预测权重的技术以及一种用于词义消歧的方法,并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务 (NLU) 的性能,同时在 Plagiarism Detection 方面也有了更好的表现。
Jan, 2023
本文提出一种名为 Lip by Speech (LIBS) 的新方法,通过从语音识别器中学习来提高唇语的性能,采用多粒度知识蒸馏进行跨模态知识蒸馏,并在 CMLR 和 LRS2 数据集上实现新的最先进性能,分别比基线优越 7.66% 和 2.75%.
Nov, 2019
本文提出了一种针对 RNN-Transducer 模型的知识蒸馏方法,通过对模型剪枝的过程结合知识蒸馏,实现了对小型模型精度的提高。 实验结果表明,通过此方法可以在多种数据集上获得较好的性能提升。
Nov, 2020
本文提出了一种端到端的深度学习架构用于字级视觉语音识别,该方法结合了时空卷积、残量和双向长短时记忆网络,该网络在 Lipreading In-The-Wild 基准上获得了 83.0 的字级准确率,相较于当前的最先进方法有 6.8 的绝对提升,且在训练和测试过程中均未使用有关单词边界的信息。
Mar, 2017
通过 generation-distillation 训练方法,利用大型 fine-tuned 语言模型生成无标签训练数据,通过知识蒸馏技术将这些数据的知识转移给小型网络,从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距,实现了使用更少的参数(仅为 BERT 的 300 倍)达到与 BERT 可比的性能。
Jan, 2020
本论文中,我们使用知识蒸馏通过压缩 wav2vec 2.0 和 HuBERT 语音模型约 75% 的参数量,并分别在单任务和多任务框架上进行微调实验来进行全面的性能分析,实验结果表明,在关键词检测和说话人验证任务中,微调经过知识蒸馏的模型只有 0.1% 的准确率和 0.9% 的等误差率下降。
Oct, 2022
本研究提出了一种名为 DC-TCN 的方法,使用密集连接的时间卷积网络和轻量级的 Squeeze-and-Excitation 注意力机制来进行单词的唇语识别,取得了 88.36%和 43.65%的识别准确率,超越了其他基准方法,成为两个数据集的新的最先进技术。
Sep, 2020