利用大型语言模型进行端到端的中文 ASR 和 NER

Jan, 2024

利用大型语言模型进行端到端的中文 ASR 和 NER

Using Large Language Model for End-to-End Chinese ASR and NER

Yuang Li, Jiawei Yu, Yanqing Zhao, Min Zhang, Mengxin Ren...

TL;DR通过将语音记号映射到与文本记号相同的特征空间，将语音模态整合到解码器型大型语言模型 (LLM) 中成为范式。本研究通过中文自动语音识别 (ASR) 和命名实体识别 (NER) 任务对 Whisper 编码器和 ChatGLM3 进行深入比较，评估它们不仅基于传统的 F1 评分，还基于 ASR-NER 错误的新颖细粒度分类。实验结果表明，与短上下文相比，使用编码器 - 解码器架构的性能优于仅解码器架构，而对于长上下文，仅解码器架构可以充分利用 LLM 的所有层，从而获益。我们使用 LLM 显著减少了实体遗漏错误，并改善了实体 ASR 准确率，与 Conformer 基准相比，我们在 AISHELL-NER 测试集上获得了 0.805 的最先进的 F1 评分，并通过 chain-of-thought (CoT) NER 首先推断出长形 ASR 转录，然后预测 NER 标签。

Abstract

Mapping speech tokens to the same feature space as text tokens has become the paradigm for the integration of speech modality into decoder-only large language models (LLMs). An alternative approach is to use an encoder-decoder architecture that incorporates speech features through cros

speech modality encoder-decoder architecture automatic speech recognition name entity recognition large language models

发现论文，激发创造

连接语音编码器和大型语言模型用于 ASR

该论文通过比较研究了三种常用的连接结构，包括全连接层、多头交叉注意力和 Q-Former，并对 Whisper 系列的语音编码器和 Vicuna 系列的大语言模型进行了实验，结果表明基于 Q-Former 的大语言模型相比其他连接结构在 LibriSpeech、Common Voice 和 GigaSpeech 数据集上均取得了一致且显著的词错误率降低。此外，提出了一种新颖的片段级 Q-Former，使大语言模型能够识别超过编码器限制的持续时间的语音片段，在 90 秒长的语音数据上相比其他连接结构取得了 17% 的词错误率降低。

Sep, 2023

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在 Multilingual LibriSpeech 上的实验证明，即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时，多语种 ASR 仍然可行，从而为 LLMs 在长篇音频中进行操作开辟了可能性。

Jul, 2023

连接语音编码器和大型语言模型的全面解决方案用于语音识别

本文提出了一个综合解决方案，包括更加细致的微调方案、匹配损失用于增强模态对齐、以及训练和推理方法来减少插入错误，实验证明部分微调语音编码器和语言模型，以及使用诸如 LoRA 的参数高效方法是最具成本效益的方法，匹配损失能够提升模态对齐，而所提出的训练和推理方法则显著减少了插入错误。

Jun, 2024

揭示基于 LLM 的中文开源数据集上的 ASR 潜力

基于大型语言模型的自动语音识别研究，探索了多种配置下的语音编码器、语言模型和投影模块对 ASR 性能的影响，采用三阶段训练方法实现了在中文数据集上的最佳表现，为未来 LLM 基于 ASR 系统的研究提供了实证基础和性能优化的见解。

May, 2024

关于语音到文本和大型语言模型集成的仅解码器架构

该研究介绍了 Speech-LLaMA，一种将声学信息有效地整合到基于文本的大型语言模型中的新方法，并进一步探索了仅解码器架构在语音处理任务中的应用。

Jul, 2023

使用词级 N-Gram 语言模型改进普通话端到端语音识别

本研究提出了一种新型的解码算法，可以结合外部语言模型，构建单词级别的 lattice，用于提高语音识别的表现，并在 Aishell-1 和 Aishell-2 的数据集上取得了最优结果。

Jan, 2022

大型语言模型不是你所需的全部

本文描述了解决 SemEval 2023 Task 2：MultiCoNER II（多语言复杂命名实体识别）问题所构建的体系结构和系统。我们评估了两种方法：传统的条件随机场模型和经过自定义头部微调的大型语言模型（LLM），并比较了这两种方法。我们探索的新想法有：1）衰减辅助损失（带剩余项）- 在模型上训练粗粒度 NER 的辅助任务并将其包括在损失函数的一部分中；2）三元标记混合 - 探索在最终 NER 层中预测之前混合相邻标记的嵌入方式；3）任务最优头部 - 探索各种用于 LLM 最终层的自定义头部和学习率。我们还尝试了多个 LLM，包括 GPT-3，并在最终模型中使用了多种 dropout 和其他超参数设置，该模型在开发数据上达到了 0.85/0.84 的微观和宏观 F1 值，并在测试数据上达到了 0.67/0.61。我们证明，虽然预训练的 LLM 本身相对传统模型带来了很大的改进，但通过上述额外特征 / 损失 / 模型工程技术的增强，我们还可以显著提高宏观 F1 分数。

Jan, 2024

流式端到端语音识别的解码器架构

使用解码器专用架构进行分块流式自动语音识别，通过压缩 CTC 输出和上下文嵌入的语音特征，并将其作为提示逐块顺序提供给解码器，以快速估计输出令牌，同时采用随机长度前缀提示的新型训练方案，使模型能够应对分块处理引起的截断提示，并且在 LibriSpeech test-other 数据集上相对词错误率减少了 8%，速度是基线模型的两倍。

Jun, 2024

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020

基于序列到序列模型的最先进语音识别技术

本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段，将 Listen Attend Spell（LAS）模型应用于语音搜索任务中，从而将错误率从 9.2% 显著降至 5.6%。在听写任务中，该模型的错误率为 4.1%，略优于传统系统的 5.0%。

Dec, 2017