Feb, 2024

不慎的耳语:语音转文本幻觉的危害

TL;DR评估了 OpenAI 的 Whisper 语音转文字服务,发现大约 1% 的音频转录中包含了并不存在于音频中的幻觉短语或句子,其中 38% 的幻觉内容包括暴力、虚构的个人信息或虚假的基于视频的权威,并提供了关于幻觉发生原因的假设,揭示了由语音类型和健康状况引起的潜在差异。呼吁业界从业者改善 Whisper 中基于语言模型的幻觉问题,并提高对语音转文字模型在下游应用中潜在偏见的意识。