- COLING基于地标指导的跨说话人唇读技术与互信息规范化
本研究提出了一种训练鲁棒性的唇读模型的方法,通过利用唇部地标引导的细粒度视觉线索,减少与特定说话者相关的外观特征,并通过最大最小互信息正则化方法捕捉不受说话者影响的潜在表示。实验证明了该方法在说话者内部和跨说话者条件下的有效性。
- 学习可分离的隐藏单元贡献用于适应性口型阅读
提出了一种新颖的嘴唇阅读中的说话人适应方法,根据嘴唇运动中浅层和深层的特点分别对其进行处理,通过自动学习说话者的独特特征以提高鲁棒的嘴唇阅读。
- 罗马尼亚跨语言域自适应的端到端唇读
该研究论文研究了视窗学习(或称视觉语音识别)的关键领域,采用各种架构和优化方法对基于罗马尼亚语言数据集的模型进行测试,并通过使用英语和德语数据集的无标签视频来帮助模型学习语言不变特征,进而提出跨语言领域自适应的方法,最终获得了尖端结果,并评 - 借助视界构建更好的视觉语言表达和唇读能力
我们提出了一个新的方法,利用音素相似的嘴唇形状群体(发音单位)来提取更具辨别能力和鲁棒性的视频特征,从而改善了视频特征有限所导致的现有嘴唇识别系统低准确度的问题。实验证明,我们的方法在字级和句级嘴唇识别,以及使用 Arman-AV 数据集进 - OLKAVS: 一个开放的大规模韩语音频 - 视觉语音数据集
提出了韩文的开放式大规模多模音视频数据集(OLKAVS)及其对多模态研究的促进作用。
- 高效音视关联的 Conformer 用于鲁棒语音识别
本研究建议使用音频和视觉模态来改善基于 Efficient Conformer Connectionist Temporal Classification 架构的噪声鲁棒性,并在 LRS2 和 LRS3 数据集上进行了实验。结果表明,使用音 - ECCV具有用户相关填充的说话人自适应唇读
本文提出了一种音频读唇的说话人自适应方法,该方法针对模型训练与测试时说话人不匹配的情况,使用特定的输入(称为用户相关填充)参与预先训练的模型的视觉特征提取阶段,以进行适应性的个人化的视觉特征编码。
- AAAI使用多头视听记忆来区分同音异义词进行唇读
本文提出一种多头视听记忆模型 (MVM),用于减轻唇读中信息不足和同音异义现象的挑战。该模型由音频 - 视觉数据集训练得到,结合多头记忆键和值来保存可区分同音异义现象的音频和视觉特征,并且在考虑上下文语境的多时间级别下使用,有效提高了唇读的 - ICCV记忆中的多模态联想桥接:从面部视频中回溯语音声音
本文提出了一种新颖的音频 - 视觉多模态桥接框架,它可以利用音频和视觉信息,并通过 associative bridge 从记忆网络中获取目标模态表示,将其应用于唇语阅读和静音视频的语音重建,具有当前最先进性能。
- 用于自动唇读系统和迁移学习的多模式德语数据集
本文提出了 GLips 数据集,其中包含 25 万个公共可用的视频,用于面部讲话者的单词级别的唇语阅读,作者探究了唇语阅读是否具有语言无关的特征,以便可以利用数据集来提高唇语阅读模型。
- 基于视觉注意力的子词级唇读技术
该研究提出了一种关注视觉嘴唇读取的独特挑战,采用定制的基于注意力和亚词单元的方法,构建视觉嘴唇读取模型和视觉语音检测模型,并在公共数据集上实现了当今最优秀的结果,甚至超过工业声音数据集训练模型大约一个数量级的数据。
- MMSimulLR: 具有注意力引导自适应记忆的同时唇语识别转换器
本文提出了一种名为 SimulLR 的同时口型阅读转换器,它通过注意力引导的自适应记忆从三个方面解决了同时口型阅读的挑战。实验表明,SimulLR 相对于非同时方法在翻译速度上提速了 9.10 倍,并且获得了竞争性的结果,证明了我们提出方法 - CVPR多角度 LSTM 联合视觉表示学习
我们提出了一种新颖的 LSTM 单元结构,能够学习从多个角度捕获的视觉序列中存在的内部和跨视角关系。我们证明,使用所提出的单元来创建神经网络,可以学习有效和更丰富的视觉表示,适用于口型识别和人脸识别等多角度视觉识别任务。我们在三个相关数据集 - DualLip:一种用于联合读唇和生成的系统
本文介绍了 DualLip,一个使用未标记的语音和视频数据联合优化唇读和唇形生成的系统,并进一步扩展到人脸和语音生成。在 GRID 和 TCD-TIMIT 上的实验证明使用 DualLip 可以有效提高唇读、唇形生成和生成对话脸的性能。
- 观察唤醒词:视听关键词检测
本研究提出一种名为 KWS-Net 的卷积神经网络结构,通过序列匹配和模式检测技术,从视觉角度自动检测并确定在何时,是否有包含关键词的口型出现,在无音频或有清晰 / 嘈杂语音的情况下,性能优于现有的同类方法,还在跨语言处理上实现了良好的表现 - 有效的唇语识别的互信息最大化
利用深度学习与信息论相结合的方法,提出了在本地特征和全局序列层面应用互信息约束改善嘴唇阅读表现的技术,并在两个大型基准测试中达到了新的最佳表现。
- 基于变形流的双流网络用于唇语识别
本文提出了一种基于变形流网络和双流网络的唇语识别方法,通过引入双向知识蒸馏损失函数让两个分支互相学习,实现了比单一分支更好的性能,并在两个大型唇语识别基准测试中获得了与最先进方法相媲美的结果。
- AAAI通过压缩语音识别器提高口讯识别效果
本文提出一种名为 Lip by Speech (LIBS) 的新方法,通过从语音识别器中学习来提高唇语的性能,采用多粒度知识蒸馏进行跨模态知识蒸馏,并在 CMLR 和 LRS2 数据集上实现新的最先进性能,分别比基线优越 7.66% 和 2 - MM中文普通话唇语阅读的级联序列模型
本篇论文提出一种基于级联序列到序列模型的汉语普通话口型识别方法,该方法明确地模拟了语调在预测句子时起到的作用,并在中国网络电视网站上收集的数据集(CMLR)上训练。实验结果表明,该方法在汉语普通话口型识别方面表现出色,其表现优于先前的口型识 - 深度音视频语音识别
本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子,我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别,并研究唇语识别在有噪音的情况下与音频识别的互补性,同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据