EMNLPOct, 2023

耳语 LLaMA: 语音识别的跨模态生成错误修正框架

TL;DR我们引入了一种新的跨模态融合技术,用于在自动语音识别(ASR)中进行生成性错误校正。我们的方法利用声学信息和外部语言表示来生成准确的语音转录上下文。与现有的基于排名的重排序方法不同,我们的方法巧妙地使用了不同的初始化技术和参数高效算法,从预训练的语音和文本模型中提高了 ASR 性能。通过在多样的 ASR 数据集上评估,我们评估了我们的融合技术的稳定性和可重现性,并相对于 n-best 假设的错误率(WERR)性能相对提高了 37.66%。为了鼓励未来的研究,我们将我们的代码和预训练模型开源。