具有用户相关填充的说话人自适应唇读

ECCVAug, 2022

具有用户相关填充的说话人自适应唇读

Speaker-adaptive Lip Reading with User-dependent Padding

Minsu Kim, Hyunjun Kim, Yong Man Ro

TL;DR本文提出了一种音频读唇的说话人自适应方法，该方法针对模型训练与测试时说话人不匹配的情况，使用特定的输入（称为用户相关填充）参与预先训练的模型的视觉特征提取阶段，以进行适应性的个人化的视觉特征编码。

Abstract

lip reading aims to predict speech based on lip movements alone. As it focuses on visual information to model the speech, its performance is inherently sensitive to personal lip appearances and movements. This makes the

lip reading speaker adaptation visual feature extraction user-dependent padding unseen speakers

发现论文，激发创造

学习可分离的隐藏单元贡献用于适应性口型阅读

提出了一种新颖的嘴唇阅读中的说话人适应方法，根据嘴唇运动中浅层和深层的特点分别对其进行处理，通过自动学习说话者的独特特征以提高鲁棒的嘴唇阅读。

Oct, 2023

使用域对抗训练提高无需说话者口型识别

本文介绍了一种唇读系统，即一种只使用视觉特征的语音识别系统，它利用了领域对抗训练等技术以实现说话人无关性，用于优化由一系列前馈神经网络和 LSTM 递归神经网络构成的唇读者，并实现了端到端可训练的系统，只需要少量带有未转录目标数据的 frames 即可在目标说话人的语音识别准确率上显著提高约 40％。

Aug, 2017

LipFormer: 基于视觉地标变换器学习从未见过说话者的唇读

该论文介绍了一种新的语音识别方法：LipFormer，它使用了视觉和标记反映的多模态特征，使得它能够对不同的嘴唇颜色和形状产生的可见变化具有鲁棒性，并且在未知的发言人上表现出出色的泛化性能。

Feb, 2023

基于地标指导的跨说话人唇读技术与互信息规范化

本研究提出了一种训练鲁棒性的唇读模型的方法，通过利用唇部地标引导的细粒度视觉线索，减少与特定说话者相关的外观特征，并通过最大最小互信息正则化方法捕捉不受说话者影响的潜在表示。实验证明了该方法在说话者内部和跨说话者条件下的有效性。

Mar, 2024

基于视觉注意力的子词级唇读技术

该研究提出了一种关注视觉嘴唇读取的独特挑战，采用定制的基于注意力和亚词单元的方法，构建视觉嘴唇读取模型和视觉语音检测模型，并在公共数据集上实现了当今最优秀的结果，甚至超过工业声音数据集训练模型大约一个数量级的数据。

Oct, 2021

面向语音识别的统一说话人适应方法

本文提出了一种基于特征适应和模型适应的统一说话人自适应方法，其中采用一种说话人感知的持久性记忆模型进行特征适应，并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明，相对于基线方法，在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降，并且该方法具有良好的低资源适应性能。

Oct, 2021

面向说话者自适应视觉语音识别的深度神经网络提示调整

本文提出了一种基于 Deep Neural Networks 的 prompt tuning 方法，通过针对目标演讲者的适应数据进行提示微调，显著提高了预先训练的 Visual Speech Recognition 模型在未知演讲者上的性能。

Feb, 2023

利用学习和结合一般语音知识和特定语言知识来进行低资源语言的唇读

该论文提出了一种针对低资源语言的新型唇语识别框架，通过学习通用语音知识和特定语言知识，可以高效地开发适用于低资源语言的唇语识别模型。

Aug, 2023

由唇语专家引导的交谈面部生成

本文提出了一种利用口语专家、对不正确的生成结果进行惩罚和全局时间和视觉同步编码的对比学习和变压器方法来提高口语智能理解度的方法，并使用两种不同的口语专家评估生成视频的智能理解度。我们的方法在读取可理解度、嘴唇运动同步等方面优于当前的一些最先进方法，并获得其他方面的收益。

Mar, 2023

Lipper：多视角唇读合成语音

本文介绍了一种名为 Lipper 的新型多视角唇语到语音系统，将唇语识别作为回归问题建模，实现了更高水平的语音重建结果并具有实时性。

Jun, 2019