COLINGMar, 2024

基于地标指导的跨说话人唇读技术与互信息规范化

TL;DR本研究提出了一种训练鲁棒性的唇读模型的方法,通过利用唇部地标引导的细粒度视觉线索,减少与特定说话者相关的外观特征,并通过最大最小互信息正则化方法捕捉不受说话者影响的潜在表示。实验证明了该方法在说话者内部和跨说话者条件下的有效性。