使用域对抗训练提高无需说话者口型识别

Aug, 2017

使用域对抗训练提高无需说话者口型识别

Improving Speaker-Independent Lipreading with Domain-Adversarial Training

Michael Wand, Juergen Schmidhuber

TL;DR本文介绍了一种唇读系统，即一种只使用视觉特征的语音识别系统，它利用了领域对抗训练等技术以实现说话人无关性，用于优化由一系列前馈神经网络和 LSTM 递归神经网络构成的唇读者，并实现了端到端可训练的系统，只需要少量带有未转录目标数据的 frames 即可在目标说话人的语音识别准确率上显著提高约 40％。

Abstract

We present a lipreading system, i.e. a speech recognition system using only visual features, which uses →

lipreading system speech recognition visual features domain-adversarial training lstm

发现论文，激发创造

使用长短时记忆网络进行唇读

本文介绍了利用神经网络从仅有的视觉信息（面部）中识别言语并实现唇读的方法，通过使用前馈和循环神经网络层（即 LSTM）堆叠成单一结构，并对其进行训练，成功地实现了比传统方法更高的识别准确性。

Jan, 2016

罗马尼亚跨语言域自适应的端到端唇读

该研究论文研究了视窗学习（或称视觉语音识别）的关键领域，采用各种架构和优化方法对基于罗马尼亚语言数据集的模型进行测试，并通过使用英语和德语数据集的无标签视频来帮助模型学习语言不变特征，进而提出跨语言领域自适应的方法，最终获得了尖端结果，并评估了模型中添加的神经抑制机制的性能。

Oct, 2023

基于对抗学习的无监督领域自适应技术，用于提高语音识别的鲁棒性

利用对抗性学习进行无监督适应性，采用神经网络和未分类的适应性数据解决了远程语音识别问题，相对于没有适应的模型，相对词错误率下降了 19.8%。

Jul, 2018

学习可分离的隐藏单元贡献用于适应性口型阅读

提出了一种新颖的嘴唇阅读中的说话人适应方法，根据嘴唇运动中浅层和深层的特点分别对其进行处理，通过自动学习说话者的独特特征以提高鲁棒的嘴唇阅读。

Oct, 2023

将 Residual Networks 与 LSTMs 组合用于唇语识别

本文提出了一种端到端的深度学习架构用于字级视觉语音识别，该方法结合了时空卷积、残量和双向长短时记忆网络，该网络在 Lipreading In-The-Wild 基准上获得了 83.0 的字级准确率，相较于当前的最先进方法有 6.8 的绝对提升，且在训练和测试过程中均未使用有关单词边界的信息。

Mar, 2017

文本独立取证发言人识别的多源领域自适应

本研究提出了基于领域对抗训练、差异最小化和矩匹配方法的三种新的自适应方法，以在多个声学领域中进一步提高自适应性能。实验表明，多种声学环境确实会影响讲话者识别性能，并且领域对抗训练、差异最小化和矩匹配自适应都能在多个声学领域中同时实现有效性能。

Nov, 2022

对抗式学习原始语音特征实现领域不变语音识别

本文探讨了对抗训练在自动语音识别中应用的有效性，在使用 Domain Adversarial Neural Networks (DANNs) 在多个数据集上的实验结果表明，对抗训练能够有效地进行无监督领域自适应，从而强调了 DANNs 从原始语音学习领域不变特征的能力。

May, 2018

LipFormer: 基于视觉地标变换器学习从未见过说话者的唇读

该论文介绍了一种新的语音识别方法：LipFormer，它使用了视觉和标记反映的多模态特征，使得它能够对不同的嘴唇颜色和形状产生的可见变化具有鲁棒性，并且在未知的发言人上表现出出色的泛化性能。

Feb, 2023

基于教师 - 学生学习的大规模领域自适应

本文提出一种用于领域自适应的方法，不需要转录数据，而是使用源域和目标域的无标记平行数据，利用教师 / 学生学习方法在目标域中训练模型，并在两种场景下进行评估，实现了显著的准确率提升，尤其是当使用模拟训练数据时，增加了模型的鲁棒性。

Aug, 2017

通过压缩语音识别器提高口讯识别效果

本文提出一种名为 Lip by Speech (LIBS) 的新方法，通过从语音识别器中学习来提高唇语的性能，采用多粒度知识蒸馏进行跨模态知识蒸馏，并在 CMLR 和 LRS2 数据集上实现新的最先进性能，分别比基线优越 7.66％和 2.75％.

Nov, 2019