关于预训练语言模型 N-gram 逼近的研究

Jun, 2023

关于预训练语言模型 N-gram 逼近的研究

On the N-gram Approximation of Pre-trained Language Models

Aravind Krishnan, Jesujoba Alabi, Dietrich Klakow

TL;DR本研究调查了预先训练的语言模型在自动语音识别中的潜在用途，对比了大规模文本抽样和概率转换的应用。在八个特定领域的语料库中，发现采样的近似方法支持使用，插值与大规模文本语料库一起使用对比基线三元组能使测试困惑度提高 15％，我们引入了一种有限制的词汇解码方法，这将进一步提高 5％的改进。

Abstract

Large pre-trained language models (PLMs) have shown remarkable performance across various natural language understanding (NLU) tasks, particularly in low-resource settings. Nevertheless, their potential in Automatic Speech Recognition (ASR) remains largely unexplored. This study invest

pre-trained language models automatic speech recognition n-gram model vocabulary-restricted decoding domain-specific corpora

发现论文，激发创造

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用 LLMs 的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

利用大型语言模型攫取 ASR 不确定性

利用 n-best 列表提示方法，我们改善了基于大型语言模型的口语理解任务，使其能够更好地理解口语意图并应用于基于语音的应用。

Sep, 2023

可扩展的多语料神经语言模型用于 ASR

通过从异构语料库中训练神经语言模型、限制时延影响和处理第二遍修正器中的个性化偏差等挑战，本文在第二遍 n-best rescoring 框架中使用神经 LM，实现了 6.2% 的相对 WER 降低，而延迟增加很小。

Jul, 2019

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

基于条件生成的大型语言模型性能基准测试

本文提出如何将 PLMs 应用到现有应用程序特定的生成基准上，对输入和输出语言等不同维度的 PLMs 在自然语言生成任务方面的优点和局限性进行了深入的实证研究，并分享了在开发新 PLMs 时考虑到的基准生成能力的最佳实践。

Jun, 2023

文本转语音的预训练语言模型的比较分析

本研究旨在比较分析不同的预训练语言模型在文本转语音任务中的影响，包括韵律预测和停顿预测，并发现模型大小与质量之间存在对数关系，以及中性和表达韵律之间的显著性能差异。此外，还发现任务对较小模型不太敏感，并且我们的实证结果与这些语言模型的 GLUE 分数之间存在强相关性。据我们所知，这是第一项研究探究不同预训练语言模型对文本转语音影响的研究。

Sep, 2023

再次聆听并选择正确答案：大语言模型下自动语音识别的新范式

该论文提出了一种新的 ASR 生成性错误纠正范式 ClozeGER，通过引入一种多模态 LLM（即 SpeechGPT）来改善纠正输出的忠实度，然后将 GER 重新设计为带有 logits 校准的 cloze 测试，以消除输入信息冗余并简化 GER 过程。实验证明，ClozeGER 在 9 个流行的 ASR 数据集上取得了新的突破。

May, 2024

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在 Multilingual LibriSpeech 上的实验证明，即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时，多语种 ASR 仍然可行，从而为 LLMs 在长篇音频中进行操作开辟了可能性。

Jul, 2023

语音识别中零 - shot 领域调适的大型语言模型启发

本文介绍了两种使用 LLaMA 的零样本 ASR 领域适应方法，这两种方法可以通过一个领域特定的文本提示有效地减少跨领域 TedLium-2 和 SPGISpeech 数据集上的词错误率（WER），特别是，深度 LLM-fusion 具有更好的实体召回和词汇外单词的召回优势。

Jun, 2023

利用语言模型生成训练数据：走向零样本语言理解

本文提出了一种简单的方法，使用预训练语言模型 (Pretrained language models) 进行全零样本学习 (zero-shot learning) 自然语言理解任务 (NLU tasks)。该方法使用单向和双向 PLMs 生成和训练数据，其中训练数据是使用提示 (prompts) 引导的类别条件文本。使用这种方法，在 GLUE 数据集的七个分类任务中取得了强劲的表现 (例如在 MNLI-m/mm 上的 72.3/73.8，以及在 SST-2 上的 92.8)，相对于零样本提示方法，甚至实现了与使用每类 32 个训练样本的强有力的少样本方法相当的结果。同时，采用了标签平滑和时间模型的融合技术以达到更好的泛化和稳定性。

Feb, 2022