利用蒸馏和高效模型实现实用的唇读技术

Jul, 2020

利用蒸馏和高效模型实现实用的唇读技术

Towards Practical Lipreading with Distilled and Efficient Models

Pingchuan Ma, Brais Martinez, Stavros Petridis, Maja Pantic

TL;DR本文提出了一系列措施，包括自我蒸馏、DS-TCN 模型等，有效提高了唇语识别的性能，并大幅减少计算成本和参数数量，为唇语识别技术在实际应用中的推广提供了希望。

Abstract

lipreading has witnessed a lot of progress due to the resurgence of neural networks. Recent works have placed emphasis on aspects such as improving performance by finding the optimal architecture or improving generalization. However, there is still a significant gap between the current

lipreading neural networks self-distillation ds-tcn knowledge distillation

发现论文，激发创造

唇读口型理解：利用跨模态知识蒸馏混合感官进行基于单词模型的唇形理解

本文提出了一种从音频语音识别系统向视觉语音识别器转移技术的方法，其目标是在读唇模型训练过程中利用音频数据。

Jun, 2022

使用时间卷积网络进行唇读

本研究旨在改进当前用于野外孤立词识别的最先进模型，首先通过引入 TCN 替代 BGRU 层，简化训练过程，其次，提出变长度数据增强技术，最终在两个最大的公开数据集上展示了 1.2% 和 3.2% 的性能增益，这是最新的最先进性能。

Jan, 2020

深度唇语识别：模型比较和在线应用

本文旨在发展最先进的口型阅读模型，分别使用 LSTM 递归模型、全卷积模型和最近提出的 Transformer 模型，并通过 BBC-Oxford Lip Reading Sentences 2 (LRS2) 基准数据集的实验表明了本研究的最佳成果。

Jun, 2018

神经语言模型的一致性蒸馏架构

本研究探讨了一种 Knowledge Distillation 的新方法，即从神经网络和词汇知识库中提取语言信息，以提供大规模模型的高效替代方案，并提出了两种基于多个 teacher networks 预测权重的技术以及一种用于词义消歧的方法，并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务 (NLU) 的性能，同时在 Plagiarism Detection 方面也有了更好的表现。

Jan, 2023

通过压缩语音识别器提高口讯识别效果

本文提出一种名为 Lip by Speech (LIBS) 的新方法，通过从语音识别器中学习来提高唇语的性能，采用多粒度知识蒸馏进行跨模态知识蒸馏，并在 CMLR 和 LRS2 数据集上实现新的最先进性能，分别比基线优越 7.66％和 2.75％.

Nov, 2019

RNN-Transducer 模型的高效知识蒸馏

本文提出了一种针对 RNN-Transducer 模型的知识蒸馏方法，通过对模型剪枝的过程结合知识蒸馏，实现了对小型模型精度的提高。实验结果表明，通过此方法可以在多种数据集上获得较好的性能提升。

Nov, 2020

将 Residual Networks 与 LSTMs 组合用于唇语识别

本文提出了一种端到端的深度学习架构用于字级视觉语音识别，该方法结合了时空卷积、残量和双向长短时记忆网络，该网络在 Lipreading In-The-Wild 基准上获得了 83.0 的字级准确率，相较于当前的最先进方法有 6.8 的绝对提升，且在训练和测试过程中均未使用有关单词边界的信息。

Mar, 2017

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

知识蒸馏在多任务语音表示学习中的应用

本论文中，我们使用知识蒸馏通过压缩 wav2vec 2.0 和 HuBERT 语音模型约 75% 的参数量，并分别在单任务和多任务框架上进行微调实验来进行全面的性能分析，实验结果表明，在关键词检测和说话人验证任务中，微调经过知识蒸馏的模型只有 0.1% 的准确率和 0.9% 的等误差率下降。

Oct, 2022

使用紧密连接的时间卷积网络进行唇语识别

本研究提出了一种名为 DC-TCN 的方法，使用密集连接的时间卷积网络和轻量级的 Squeeze-and-Excitation 注意力机制来进行单词的唇语识别，取得了 88.36％和 43.65％的识别准确率，超越了其他基准方法，成为两个数据集的新的最先进技术。

Sep, 2020