具有用户相关填充的说话人自适应唇读
提出了一种新颖的嘴唇阅读中的说话人适应方法,根据嘴唇运动中浅层和深层的特点分别对其进行处理,通过自动学习说话者的独特特征以提高鲁棒的嘴唇阅读。
Oct, 2023
本文介绍了一种唇读系统,即一种只使用视觉特征的语音识别系统,它利用了领域对抗训练等技术以实现说话人无关性,用于优化由一系列前馈神经网络和 LSTM 递归神经网络构成的唇读者,并实现了端到端可训练的系统,只需要少量带有未转录目标数据的 frames 即可在目标说话人的语音识别准确率上显著提高约 40%。
Aug, 2017
该论文介绍了一种新的语音识别方法:LipFormer,它使用了视觉和标记反映的多模态特征,使得它能够对不同的嘴唇颜色和形状产生的可见变化具有鲁棒性,并且在未知的发言人上表现出出色的泛化性能。
Feb, 2023
本研究提出了一种训练鲁棒性的唇读模型的方法,通过利用唇部地标引导的细粒度视觉线索,减少与特定说话者相关的外观特征,并通过最大最小互信息正则化方法捕捉不受说话者影响的潜在表示。实验证明了该方法在说话者内部和跨说话者条件下的有效性。
Mar, 2024
该研究提出了一种关注视觉嘴唇读取的独特挑战,采用定制的基于注意力和亚词单元的方法,构建视觉嘴唇读取模型和视觉语音检测模型,并在公共数据集上实现了当今最优秀的结果,甚至超过工业声音数据集训练模型大约一个数量级的数据。
Oct, 2021
本文提出了一种基于特征适应和模型适应的统一说话人自适应方法,其中采用一种说话人感知的持久性记忆模型进行特征适应,并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明,相对于基线方法,在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降,并且该方法具有良好的低资源适应性能。
Oct, 2021
本文提出了一种基于 Deep Neural Networks 的 prompt tuning 方法,通过针对目标演讲者的适应数据进行提示微调,显著提高了预先训练的 Visual Speech Recognition 模型在未知演讲者上的性能。
Feb, 2023
该论文提出了一种针对低资源语言的新型唇语识别框架,通过学习通用语音知识和特定语言知识,可以高效地开发适用于低资源语言的唇语识别模型。
Aug, 2023
本文提出了一种利用口语专家、对不正确的生成结果进行惩罚和全局时间和视觉同步编码的对比学习和变压器方法来提高口语智能理解度的方法,并使用两种不同的口语专家评估生成视频的智能理解度。我们的方法在读取可理解度、嘴唇运动同步等方面优于当前的一些最先进方法,并获得其他方面的收益。
Mar, 2023