学习可分离的隐藏单元贡献用于适应性口型阅读

Oct, 2023

学习可分离的隐藏单元贡献用于适应性口型阅读

Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading

Songtao Luo, Shuang Yang, Shiguang Shan, Xilin Chen

TL;DR提出了一种新颖的嘴唇阅读中的说话人适应方法，根据嘴唇运动中浅层和深层的特点分别对其进行处理，通过自动学习说话者的独特特征以提高鲁棒的嘴唇阅读。

Abstract

In this paper, we propose a novel method for speaker adaptation in lip reading, motivated by two observations. Firstly, a speaker's own characteristics can always be portrayed well by his/her few facial images or even a single image with shallow networks, while the fine-grained dynamic

speaker adaptation lip reading shallow and deep layers speaker's characteristics speech content

发现论文，激发创造

具有用户相关填充的说话人自适应唇读

本文提出了一种音频读唇的说话人自适应方法，该方法针对模型训练与测试时说话人不匹配的情况，使用特定的输入（称为用户相关填充）参与预先训练的模型的视觉特征提取阶段，以进行适应性的个人化的视觉特征编码。

Aug, 2022

基于视觉注意力的子词级唇读技术

该研究提出了一种关注视觉嘴唇读取的独特挑战，采用定制的基于注意力和亚词单元的方法，构建视觉嘴唇读取模型和视觉语音检测模型，并在公共数据集上实现了当今最优秀的结果，甚至超过工业声音数据集训练模型大约一个数量级的数据。

Oct, 2021

无监督声学模型自适应学习隐藏单元贡献

通过学习隐藏单元贡献的调整方法（LHUC），这项工作介绍了神经网络声学模型的适应性研究，将其扩展到发言人自适应训练和多种语音识别基准，并证明在测试和 SAT 方案中，LHUC 均能在不同程度的训练和测试数据不匹配的情况下显著提高词错误率。

Jan, 2016

使用域对抗训练提高无需说话者口型识别

本文介绍了一种唇读系统，即一种只使用视觉特征的语音识别系统，它利用了领域对抗训练等技术以实现说话人无关性，用于优化由一系列前馈神经网络和 LSTM 递归神经网络构成的唇读者，并实现了端到端可训练的系统，只需要少量带有未转录目标数据的 frames 即可在目标说话人的语音识别准确率上显著提高约 40％。

Aug, 2017

基于地标指导的跨说话人唇读技术与互信息规范化

本研究提出了一种训练鲁棒性的唇读模型的方法，通过利用唇部地标引导的细粒度视觉线索，减少与特定说话者相关的外观特征，并通过最大最小互信息正则化方法捕捉不受说话者影响的潜在表示。实验证明了该方法在说话者内部和跨说话者条件下的有效性。

Mar, 2024

深度音视频语音增强对话

本文提出了一种深度视听语音增强网络方法，借助于对应视频中的嘴唇信息，能够在多人同时说话的情境下，从语音信号中分离出个人的发言，该方法适用于训练时未涉及到的说话者，并在不受限制的环境下，展现了出色的定量和定性效果。

Apr, 2018

使用自适应和多头自注意力进行语音增强

该论文研究了一种使用辅助说话者感知特征的自适应语音增强方法，从测试话语中直接提取用于适应的说话者表示。采用多任务学习的语音增强和说话人识别，并使用说话人识别分支的最终隐藏层输出作为辅助特征。此外，采用多头自注意力机制捕捉语音和噪声的长期依赖关系。在公共数据集上的实验结果表明，该策略实现了最先进的性能，并在主观质量方面优于传统方法。

Feb, 2020

通过压缩语音识别器提高口讯识别效果

本文提出一种名为 Lip by Speech (LIBS) 的新方法，通过从语音识别器中学习来提高唇语的性能，采用多粒度知识蒸馏进行跨模态知识蒸馏，并在 CMLR 和 LRS2 数据集上实现新的最先进性能，分别比基线优越 7.66％和 2.75％.

Nov, 2019

面向语音识别的统一说话人适应方法

本文提出了一种基于特征适应和模型适应的统一说话人自适应方法，其中采用一种说话人感知的持久性记忆模型进行特征适应，并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明，相对于基线方法，在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降，并且该方法具有良好的低资源适应性能。

Oct, 2021

LipFormer: 基于视觉地标变换器学习从未见过说话者的唇读

该论文介绍了一种新的语音识别方法：LipFormer，它使用了视觉和标记反映的多模态特征，使得它能够对不同的嘴唇颜色和形状产生的可见变化具有鲁棒性，并且在未知的发言人上表现出出色的泛化性能。

Feb, 2023