Jun, 2024

连接语音编码器和大型语言模型的全面解决方案用于语音识别

TL;DR本文提出了一个综合解决方案,包括更加细致的微调方案、匹配损失用于增强模态对齐、以及训练和推理方法来减少插入错误,实验证明部分微调语音编码器和语言模型,以及使用诸如 LoRA 的参数高效方法是最具成本效益的方法,匹配损失能够提升模态对齐,而所提出的训练和推理方法则显著减少了插入错误。