零样本领域敏感的语音识别与提示条件优化微调

Jul, 2023

零样本领域敏感的语音识别与提示条件优化微调

Zero-shot Domain-sensitive Speech Recognition with Prompt-conditioning Fine-tuning

Feng-Ting Liao, Yung-Chieh Chan, Yi-Chang Chen, Chan-Jan Hsu, Da-shan Shiu

TL;DR我们提出了一种方法，通过在给定的文本提示上条件生成，利用文本域信息创建领域敏感的语音识别模型。我们通过对预训练的端到端模型（Whisper）进行微调，从示范中学习文本示例，展示了这种能力可以推广到不同领域甚至不同的提示上下文，我们的模型在来自各种领域的未见数据集上的词误差率（WER）降低了最多33％，如医疗对话、空中交通管制通信和金融会议。考虑到音频-文本配对数据的有限可用性，我们进一步将我们的方法扩展到纯文本微调，以实现领域敏感性和领域适应性。我们证明了我们的纯文本微调模型也可以关注各种提示上下文，该模型在医疗对话数据集上的词误差率降低了最多29％。

Abstract

In this work, we propose a method to create domain-sensitive speech recognition models that utilize textual domain information by conditioning its generation on a given text prompt. This is accomplished by

发现论文，激发创造

基于教师-学生学习的大规模领域自适应

本文提出一种用于领域自适应的方法，不需要转录数据，而是使用源域和目标域的无标记平行数据，利用教师/学生学习方法在目标域中训练模型，并在两种场景下进行评估，实现了显著的准确率提升，尤其是当使用模拟训练数据时，增加了模型的鲁棒性。

Aug, 2017

使用冻结语言模型的临床提示学习

研究了prompt learning对临床应用决策任务的可行性，并与传统的微调方法进行了直接比较。结果部分符合prompt learning文献，提示学习能够在可训练参数更少和需要更少的训练数据的情况下与传统微调相匹配或改进，可以作为一种可替代越来越大的预训练语言模型微调的较低计算资源成本，适用于临床环境。

May, 2022

零样本问答的任务迁移和领域自适应

使用有标记的源域数据进行监督预训练，来降低特定领域下游任务的样本复杂性，相结合的任务转移和领域适应来微调无标签的目标任务的预训练模型，并在4个领域的特定领域阅读理解任务中超越领域自适应预训练模型的零-shot表现。

Jun, 2022

Prompt结合释义：教授预训练模型理解罕见生物医学词汇

本文提出了一种在生物医学领域中进行基于提示微调的方法，以帮助模型在微调时学习生物医学领域中的罕见术语，实验结果表明，该方法可以在不使用额外参数或训练步骤的情况下在生物医学自然语言推理任务中实现高达6%的性能提升。

Sep, 2022

通过领域适应改善Prompt Tuning的样本效率

本文提出了一种名为OPTIMA的算法，通过领域自适应来改进预处理语言模型的prompt tuning，结果表明OPTIMA可以显著提高prompt tuning的可迁移性和样本效率，并在少样本情况下超过全模型调整性能。

Oct, 2022

SwitchPrompt: 学习特定领域的门控软提示，以在低资源领域中进行分类

本研究提出了一种名为SwitchPrompt的轻量级提示方法，通过使用可训练的闸门提示和领域特定关键字，将预训练的通用领域语言模型来适应各种低资源域，实验结果表明SwitchPrompt减少了领域特定语言模型预训练的需求，并在三种文本分类基准测试中显著提高了准确率，比基准提示方法训练出的领域特定对应物最高可提高10.7％。

Feb, 2023

发掘 Web 规模语音模型的潜在能力，实现零样本任务的普适性

本文通过调整Prompt的方式，从三个任务(音视频语音识别、混合语音识别、语音翻译)入手，探究了该模型Whisper的应用性能。实验证明，相对于默认Prompt，本文提出的Prompt 在零-shot任务上的表现提升了10%到45%，并在一些数据集上甚至超越了SotA监督模型。此外，实验还揭示了Whisper的许多有趣属性，例如其对提示的鲁棒性、对语音口音的偏见，以及在潜在空间中的多语言理解。

May, 2023

语音识别中零-shot领域调适的大型语言模型启发

本文介绍了两种使用LLaMA的零样本ASR领域适应方法，这两种方法可以通过一个领域特定的文本提示有效地减少跨领域TedLium-2和SPGISpeech数据集上的词错误率（WER），特别是，深度LLM-fusion具有更好的实体召回和词汇外单词的召回优势。

Jun, 2023

利用大型语言模型进行零样本ASR领域自适应的语料合成

提出了一种新的自适应ASR模型到新目标领域的策略，其中使用大型语言模型生成目标领域文本语料库，并使用最先进的可控语音合成模型生成相应的语音，通过在上下文中进行指令微调以提高大型语言模型生成新领域文本语料库的效果，实验证明该方法在未知目标领域上能达到平均相对词错误率提高28%，且源领域性能无降低。

Sep, 2023

利用LLM生成的上下文描述改善特定领域的自动语音识别

本研究针对现有端到端自动语音识别系统在识别特定领域词汇（如专有名词和技术术语）方面的不足，提出了一种利用最新的Whisper模型，并结合描述生成和解码器微调等新颖训练方法的改进方法。实验证明，这种方法显著提高了特定领域ASR的准确性，且LLM生成的描述在有效性上优于人工撰写的描述。

Jul, 2024