不慎的耳语：语音转文本幻觉的危害

Feb, 2024

不慎的耳语：语音转文本幻觉的危害

Careless Whisper: Speech-to-Text Hallucination Harms

Allison Koenecke, Anna Seo Gyeong Choi, Katelyn Mei, Hilke Schellmann, Mona Sloane

TL;DR评估了 OpenAI 的 Whisper 语音转文字服务，发现大约 1% 的音频转录中包含了并不存在于音频中的幻觉短语或句子，其中 38% 的幻觉内容包括暴力、虚构的个人信息或虚假的基于视频的权威，并提供了关于幻觉发生原因的假设，揭示了由语音类型和健康状况引起的潜在差异。呼吁业界从业者改善 Whisper 中基于语言模型的幻觉问题，并提高对语音转文字模型在下游应用中潜在偏见的意识。

Abstract

speech-to-text services aim to transcribe input audio as accurately as possible. They increasingly play a role in everyday life, for example in personal voice assistants or in customer-company interactions. We evaluate Open AI's →

speech-to-text services whisper audio transcriptions hallucinated content biases

发现论文，激发创造

AI 幻觉：值得澄清的一个误称

本研究通过系统回顾 14 个数据库，分析了 “AI 幻觉” 这一术语的定义，并将其按应用领域进行分类，发现使用该术语的一致性不足，提出了几个替代术语，并呼吁在涉及多个领域的重要当代 AI 问题上实现更加统一的共识。

Jan, 2024

认知幻象：大型语言模型中幻觉的综述

研究总结了最近对大型语言模型中的幻觉现象的有趣见解，提出了一个包含各种文本生成任务中幻觉的新颖分类法，以及理论洞察、检测方法和改进方法，并提出了若干未来的研究方向。

Sep, 2023

零样本多任务幻觉检测

在这项研究中，我们正式定义了虚构，并提出了一种在零镜头环境中定量检测虚构的框架，利用我们的定义和模型输出包含任务和样本特定输入的假设。我们的解决方案在模型感知环境中实现了 0.78 的准确度，在模型无关环境中实现了 0.61 的准确度。值得注意的是，我们的解决方案保持了计算效率，比其他现有方法需要更少的计算资源，符合轻量化和压缩模型的趋势。

Mar, 2024

神经自动语音识别中的幻听：识别错误和幻听模型

此研究报告探讨了深度神经网络产生的幻觉是一类输出错误，在自动语音识别中幻觉的定义为模型生成的转录与源话语在语义上无关，但仍然流畅和连贯，幻觉与模型产生的自然语言输出相似性带来了误导的危险，并影响系统的可信度。为了解决这个问题，作者提出了一种基于干扰的方法来评估自动语音识别模型在测试时易于产生幻觉，该方法不需要访问训练数据集。作者展示了这种方法有助于区分在基准词错误率相似的情况下产生幻觉和不产生幻觉的模型。作者进一步探讨了自动语音识别错误类型与数据集噪声类型之间的关系，以确定最有可能产生幻觉输出的噪声类型。最后，作者通过给话语注入随机噪声的方式发现了诱导产生幻觉的方法。

Jan, 2024

YouTube 上儿童内容的无意中不安全的抄写 —— 从 “beach” 到 “bitch

本文研究了利用语音转文字技术为 YouTube Kids 制作的视频中出现令人不适当文字的原因及其程度，并提供了一个针对儿童不适当语言的数据集，同时也展示了一些可以用于纠正这些错误的语言模型。

Feb, 2022

将 Whisper 转化为实时转录系统

Whisper-Streaming 是基于 Whisper 的实时语音转录和翻译模型实现，使用本地协议和自适应延迟策略，能够在多语言会议的实时转录服务中展示高品质和 3.3 秒延迟。

Jul, 2023

通过模型内省理解和检测神经机器翻译中的幻觉

通过分析相对标记的贡献来确定神经序列生成模型的幻觉内在模型症状，使用这些症状设计出一个轻量级的幻觉检测器，在手动标注的英中和德英翻译测试上优于基于质量估计或大型预训练模型的分类器。

Jan, 2023

关于大型音视频语言模型中的音频幻觉

通过分析大型音视频语言模型中的音频幻觉，本文收集了包含幻觉的 1,000 个句子，并通过预训练的音频文本模型以零样本和微调的方式进行音频幻觉分类任务，结果显示零样本模型表现更好 (52.2% F1)，优于随机模型 (40.3%)，微调模型表现最佳 (87.9%)。

Jan, 2024

自然语言生成中幻觉的调查

本文综述了关于深度学习在自然语言生成中出现幻觉问题的度量、缓解方法和未来方向，以及针对抽象摘要、对话生成、生成式问答、数据到文本生成、机器翻译和视觉语言生成的幻觉问题的任务特定研究进展。

Feb, 2022

标定的语言模型必须产生幻象

最近的语言模型在生成对外观听起来真实但实际上是虚假的文本方面存在神秘的倾向，这对于基于语言的人工智能系统的可用性构成了障碍，并可能对依赖其输出的人造成伤害。本研究表明，预训练语言模型出现虚构某些类型的事实的统计原因是固有的，与变压器 LM 架构或数据质量无关。对于那些无法从训练数据中确定真实性的 “任意” 事实，我们表明，在适用于生成式语言模型的统计校准条件下，产生幻觉是必要的。具体而言，如果任何事实的最大概率受限，则我们表明产生幻觉的概率接近于训练数据中仅发生一次的事实的分数（一种 “Good-Turing” 估计），即使假设没有错误的理想训练数据。一个结论是，预训练模型要成为足够好的预测器（即校准），可能需要进行后期处理以减轻在训练集中只出现一次的任意事实类型的幻觉。然而，我们的分析还表明，预训练不会在训练数据中多次出现的事实（如对文章和书籍的引用等）或系统性事实（如算术计算）上产生幻觉。因此，不同的架构和学习算法可能会减轻这些后一类幻觉。

Nov, 2023