Nov, 2024

统一语音识别:一种用于听觉、视觉和视听输入的单一模型

TL;DR本研究解决了以往听觉、视觉和视听语音识别(ASR、VSR和AVSR)研究独立进行的问题,提出了一种统一的训练策略来应对性能不均衡和冗余性的挑战。通过引入一种贪婪伪标签的方法,充分利用未标记样本,提高模型的性能,最终在多个数据集上达到了最新的技术水平。