EMNLPDec, 2023

WhisBERT: 亿字规模的多模式文本音频语言建模

TL;DR多模态训练对语言模型的质量和效率有所改善,但在复杂目标优化和超越纯文本基线方面仍存在挑战。