COLINGMar, 2024
基于地标指导的跨说话人唇读技术与互信息规范化
Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization
Linzhi Wu, Xingyu Zhang, Yakun Zhang, Changyan Zheng, Tiejun Liu...
TL;DR本研究提出了一种训练鲁棒性的唇读模型的方法,通过利用唇部地标引导的细粒度视觉线索,减少与特定说话者相关的外观特征,并通过最大最小互信息正则化方法捕捉不受说话者影响的潜在表示。实验证明了该方法在说话者内部和跨说话者条件下的有效性。