- MTGA: 多视角时间粒度对齐聚合在基于事件的唇读中的应用
利用说话人的嘴唇运动的视觉信息来识别单词和句子的口型识别技术,通过多视角时间粒度对齐聚合(MTGA)框架,结合时间分段的体素图列表、时空融合模块、和位置编码的时间聚合模块,本文提出的方法优于基于事件和基于视频的口型识别方法。
- ACLOpenSR: 通过维护多模态对齐实现开放式语音识别
本研究提出 OpenSR,通过维护来自高资源领域的未标记多媒体话语中音位空间中的多模态对齐,实现零样例模态转换,进而实现应用于不同模态的模型训练并采用基于聚类的提示调整策略来处理新域话语中的领域移位,结果表明 OpenSR 在三种不同设置下 - 基于字级别的波斯语唇语数据集
提供了一个新的有着 24.4 万视频和约 1800 名演讲者的真实情境下的波斯语单词级别的唇语数据集,并使用 AV-HuBERT 模型进行特征提取,该方法在我们的数据集上获得了显著更好的性能。
- 唇读口型理解:利用跨模态知识蒸馏混合感官进行基于单词模型的唇形理解
本文提出了一种从音频语音识别系统向视觉语音识别器转移技术的方法,其目标是在读唇模型训练过程中利用音频数据。
- ICLR基于掩码多模态聚类预测的音视频语音表征学习
AV-HuBERT 是自监督学习框架,用于从视频、音频中学习音视双方言的表征,可用于口型阅读和语音识别任务。在 433 小时的公共数据集 LRS3 上,使用 AV-HuBERT 的自我训练,口型阅读错误率降低到 26.9%,使用相同的表征进 - LiRA: 通过自监督学习从音频中学习视觉语音表示
该研究提出了利用声音训练人脸运动的模型以提高口语阅读的准确度。
- 使用紧密连接的时间卷积网络进行唇语识别
本研究提出了一种名为 DC-TCN 的方法,使用密集连接的时间卷积网络和轻量级的 Squeeze-and-Excitation 注意力机制来进行单词的唇语识别,取得了 88.36%和 43.65%的识别准确率,超越了其他基准方法,成为两个数 - 基于声码器的无声视频语音合成
本文利用深度学习算法,通过从口型信息中提取语音声学特征进行语音的合成,从而改善无声视频中语音恢复的质量。
- 伪卷积策略梯度用于序列到序列的口语读唇
探讨使用伪卷积策略梯度 (PCPG) 解决序列到序列问题中的 “teacher-forcing” 策略所存在的暴露偏差问题和交叉熵损失与最终评估指标之间不一致的问题。提出了使用伪卷积策略梯度 (PCPG) 的新方法来解决这些问题,该方法能够 - 使用时间卷积网络进行唇读
本研究旨在改进当前用于野外孤立词识别的最先进模型,首先通过引入 TCN 替代 BGRU 层,简化训练过程,其次,提出变长度数据增强技术,最终在两个最大的公开数据集上展示了 1.2% 和 3.2% 的性能增益,这是最新的最先进性能。
- 多粒度时空建模用于唇读
本文提出了一种基于多级时空建模法的新型唇读模型,采用细粒度和中等粒度特征提取方法,结合时域注意理解整个输入序列,该模型在挑战的单词级唇读基准测试中表现出良好的效果。
- 基于时间 GAN 的端到端语音驱动的面部动画
使用时间依赖的 GAN 模型和音视频同步的方法,实现了从原始音频和人物图像生成高质量且与个体无关的自然面部表情和嘴唇运动的视频。
- 视觉语音识别的分辨率限制
通过使用 Rosetta Raven 数据集,研究者们训练和测试了自动唇读系统,以了解分辨率对识别准确性的影响。研究表明自动唇读系统的最小分辨率不需要那么高,但在嘴唇静止的情况下,下唇底部和上唇顶部之间的距离小于四个像素时,自动唇读无法可靠 - 哪些音素到视音素映射能最好地提高仅靠视觉进行的计算机唇读准确率?
本文研究探讨当前视觉语音识别系统的一个重要假设,即存在可称为音素单元的视觉语音单元,这些单元可以映射到声学语音单元;通过研究 120 种不同的映射方法,本文提出一种基于自动唇读系统的音素混淆方法,展示了适用于个体患者的新映射方法。