口语语言识别的生成语言表示

Dec, 2023

Generative linguistic representation for spoken language identification

Peng Shen, Xuguang Lu, Hisashi Kawai

TL;DR探索利用 Whisper 模型的解码器网络通过其生成机制提取语言特征来提高 LID 任务中的分类准确性。通过基于语言嵌入方法和直接优化 LID 输出的两种策略，在 MLS、VoxLingua107 和 CommonVoice 等大规模多语言数据集上进行实验以验证我们的方法的有效性。实验结果表明该方法在 LID 任务的领域内和领域外数据集上均具有良好效果。

Abstract

Effective extraction and application of linguistic features are central to the enhancement of spoken language identification (LID) performance. With the success of recent large models, such as GPT and Whisper, th

linguistic features spoken language identification whisper model classification accuracy lid tasks

发现论文，激发创造

BERT-LID: 利用 BERT 提升口语语言识别

我们提出了一种基于 BERT 的语言识别系统，通过提取从前端语音识别器导出的语音学后向图（PPG）作为输入，可以提高较短语音段的语言识别表现，该模型可以提高长语音段识别的基准准确率约 6.5％，提高短语音段识别的基准准确率约 19.9％，表明 BERT-LID 在语言识别方面是有效的。

Mar, 2022

增强的说话对话的语音模型中的次语言学特征

大型语言模型在聊天、推理和问答等任务中表现出卓越的能力，然而标准的语言模型可能会忽略关键的语用信息，如情感、情感和口语风格，而这些信息对于实现自然、类似人类的口语对话非常重要，特别是当这些信息通过声学提示来传达时。因此，我们提出了一种增强语用的生成预训练变压器（ParalinGPT），该模型利用文本和语音模态来更好地建模口语回应的语言内容和语用属性。该模型将文本的对话背景、语音嵌入和语用属性作为输入提示，在序列化的多任务多模态框架中。实验结果表明，所提出的序列化多任务方法在当前和回应的情感分类上优于典型的序列分类技术。此外，利用对话背景和语音嵌入显著改进了回应文本的生成和情感预测。我们提出的框架在当前情感准确度、回应情感准确度和回应文本 BLEU 分数上分别取得了 6.7％、12.0％和 3.5％的相对改进。

Dec, 2023

从原始音频生成口语语言模型

本篇论文介绍了一种新的学习语言的方法，通过原始音频数据及一套度量标准来自动评估学习后的音声和语言表征，为无监督下的基于文本的生成模型提供了一种替代方法。

Feb, 2021

流式端到端多语言语音识别与联合语言识别

本文提出了一种改进的循环神经网络转录模型，通过集成一个帧级语言识别器预测器实现语言识别，以实现流式语音识别，通过流式实现统计汇聚，降低测试时成本，在语音搜索数据集上进行实验，平均命中率达到 96.2%。

Sep, 2022

使用 ConvNets 进行口语语言识别

该研究论文研究了语言识别的问题，使用了基于注意力机制和神经网络的方法，使用频谱图像作为输入以及原始波形作为特征，对六种语言进行了分类，获得了高精度的结果。

Oct, 2019

使用门控语言专家和课程训练建立高精度的多语言 ASR

使用门控语言专家和课程训练方案改善多语种 Transformer 转导模型的性能，并在英语和西班牙语的双语任务中比基准双语和单语模型分别获得 12.5% 和 7.3% 的相对字错误率降低，并且扩展到更多语言也具有类似的优势。

Mar, 2023

大型语言模型进行母语识别

使用 LLMs（如 GPT-4）进行原生语言识别（NLI）的实验结果表明，GPT 模型在 NLI 分类上表现出色，在零样本设置下取得了 91.7％的性能记录。与以往的完全监督设置不同，LLMs 可以在无需限制于已知类别的情况下执行 NLI，这在实际应用中具有实际意义。此外，LLMs 还能提供选择的理由，根据拼写错误、句法模式和直接翻译的语言模式进行推理。

Dec, 2023

使用深度卷积循环神经网络进行语言识别

该论文提出了基于图像领域解决 LID 问题的模型，使用了混合的卷积循环神经网络技术对提供的音频片段的频谱图像进行分析，并在广泛的实验中证明了模型的应用性，能够轻松地扩展到以前未知的语言，同时保持其分类准确性。

Aug, 2017

利用频谱增强技术进行混合语言口语识别

本研究针对印度语境下多种语言混杂的情况，对在语音处理中较为基础的语种识别系统 LID 进行优化，提出基于语种掩蔽和光谱增强的方法，在微软研究团队提出的挑战任务中相对基线系统进行了 3-5% 的 LID 准确度改进。

Oct, 2020

意外学习者：多语言自监督模型中的口语识别

本文通过采用 Conformer 架构，在多语言预训练模型中扩展了以往的自监督方法，我们发现预训练的语音模型最佳地在底层编码语言的区分信息。进一步地，我们证明了从这些层获取的嵌入对于分类未见过的语言和不同的声学环境具有显著的鲁棒性，无需额外的训练。在 VoxLingua107 数据集上微调预训练的 Conformer 模型后，我们实现了类似于语言识别当前最先进系统的结果。此外，我们的模型参数比当前系统少了五倍，并通过 NVIDIA NeMo 工具包开源了该模型。

Nov, 2022