Jun, 2024

深究 Whisper 的提示理解能力:提示是否真正起作用?

TL;DR本研究探讨了高性能语音识别模型 Whisper 与提示信息之间的交互作用,结果意外发现 Whisper 可能并未完全理解文字提示。此外,我们发现即使更加严格地遵循文字提示中的主题信息,也不能保证性能提升。英文提示通常在两种语言的数据集上表现优于中文提示,这很可能是由于这些语言的训练数据分布存在差异所致。与此相反,我们发现 Whisper 能够意识到语言令牌中误导性信息,通过有效地忽略错误的语言令牌并专注于正确的令牌。总结起来,本研究提出了有关 Whisper 提示理解能力的问题,并鼓励进一步研究。