将语义引入语音编码器
本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别(E2E ASR)和自监督语言模型(如 BERT)进行微调的通用语义理解框架,该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题,如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明,该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美,具有良好的环境噪声鲁棒性,并且在训练集有限的情况下也能达到较好的效果。
Oct, 2020
通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在 Multilingual LibriSpeech 上的实验证明,即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时,多语种 ASR 仍然可行,从而为 LLMs 在长篇音频中进行操作开辟了可能性。
Jul, 2023
本文提出了一种新的训练方法,将预先训练的语境嵌入用于处理声学特征,并扩展了预先训练的语音识别系统的编码器,以构建端到端的口语理解系统,实验结果表明,该系统在三个基准测试中达到与流水线结构相当的性能,在没有使用任何训练数据的情况下,在两个基准测试中经过微调每类 10 个示例后优于流水线结构。
Jul, 2020
本研究旨在通过对 SAMU-XLSR 模型进行领域特定语义丰富的专业化,探索这种模型在低资源语言移植中的使用效益,并研究该模型的跨领域能力,以更好地实现复杂口语理解任务中的语义提取。
Jul, 2023
本论文提出一种改进的自监督学习方法,其中单个神经编码器由多个工作人员共同解决不同的自监督任务,该方法可学习传输、强健和面向问题的特征,这些特征中包含了从语音信号中提取的相关信息,如讲话者身份、音素和情感线索。
Apr, 2019
我们提出了一种新方法,在自动语音识别系统中通过语义格处理利用深度学习模型来提高上下文识别的能力,从而准确地递交准确的转录结果,涵盖广泛的词汇和说话风格。我们在隐藏马尔可夫模型和高斯混合模型以及深度神经网络模型上融合语言和声学建模,通过使用基于 Transformer 的模型对单词格进行重新评分,实现了显著的性能提升和词错误率的明显降低,在 LibriSpeech 数据集上进行了实证分析,证明了我们提出的框架的有效性。
Oct, 2023
通过对大型语言模型和语音基础编码器进行多种组合的基准测试和研究,本文提出了一种简单而高效的 SLAM-ASR 系统,该系统在 Librispeech 基准测试中表现出色,并且超过了最新的音频通用模型。同时,本文还探讨了基于 LLM 的 ASR 的能力发展和模态对齐的问题。
Feb, 2024
本文述及基于最近三年的神经网络技术,通过直接从语音信号中提取语义,取代传统的分类式自然语言处理方式,以 spoken language understanding 话题研究为主,在利用未标记的数据进行自我监督训练方面取得了新的突破。同时介绍了针对法语 MEDIA 数据集的最新进展,并提出了得到明显改进的成果,概念误差率(CER)从现有最优系统的 13.6% 降至 11.2%。
Jun, 2021