Dec, 2023

多模态数据和资源高效的设备导向语音检测与大型基础模型

TL;DR通过消除触发短语的需要,本研究探索了使用流式音频录制的设备麦克风记录的信号来确定用户是否在与虚拟助手进行交流,通过将语音识别系统的最佳假设和解码器信号与音频编码器的声学表示结合为大型语言模型的输入特征来实现这一目标。使用低秩适应和前缀调整的组合来对 80,000 个或更少的多模式数据示例进行训练,我们将所提出的系统与单模式基线进行比较,结果表明多模式方法实现了更低的等错误率(EER),同时仅使用了训练数据的一小部分,并且低维度的专门音频表示比高维度的普通音频表示导致更低的错误率(EER)。