WAVPROMPT: 冻结语言模型进行少样本口语理解

Mar, 2022

WAVPROMPT: 冻结语言模型进行少样本口语理解

WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen Language Models

Heting Gao, Junrui Ni, Kaizhi Qian, Yang Zhang, Shiyu Chang...

TL;DR介绍了一种名为 WavPrompt 的语音理解框架，该框架使用预先训练的自回归语言模型，通过微调一种 wav2vec 模型生成一系列音频嵌入来实现在音频文本场景下的 few-shot 学习能力。实验表明，WavPrompt 在执行语音理解任务时表现出比朴素的文本基线更好的表现，并且能够提取更多的信息。

Abstract

Large-scale auto-regressive language models pretrained on massive text have demonstrated their impressive ability to perform new natural language tasks with only a few text examples, without the need for fine-tuning. Recent studies further show that such a →

auto-regressive language models few-shot learning audio-text setting speech understanding wavprompt

发现论文，激发创造

使用冻结语言模型的多模式小样本学习

通过对齐图像和标题数据，我们训练一个视觉编码器将每个图像表示为一系列连续的嵌入，并使用预先训练的冻结语言模型来生成相应的标题，从而将这种少量样本学习能力转移至多模态设置。该系统是一种多模态少样本学习模型，具有学习各种新任务的惊人能力，如用只有少数几个样例进行视觉问答，或者利用外部知识。

Jun, 2021

多模式提示下的零备和少备视频问答

近期的视觉 - 语言模型主要面临有限数据下的过拟合、灾难性遗忘以及视觉与语言之间的跨模态差距等挑战，本研究引入了一种参数高效的方法来解决这些问题，通过结合多模态提示学习和基于 Transformer 的映射网络，在预训练模型的冻结状态下实现。在几个视频问答基准测试中，我们的实验结果证明了我们的方法在性能和参数效率方面在零样本和少样本设置下的优越性。我们的代码可以通过该 https 网址获得。

Sep, 2023

发掘 Web 规模语音模型的潜在能力，实现零样本任务的普适性

本文通过调整 Prompt 的方式，从三个任务 (音视频语音识别、混合语音识别、语音翻译) 入手，探究了该模型 Whisper 的应用性能。实验证明，相对于默认 Prompt，本文提出的 Prompt 在零 - shot 任务上的表现提升了 10% 到 45%，并在一些数据集上甚至超越了 SotA 监督模型。此外，实验还揭示了 Whisper 的许多有趣属性，例如其对提示的鲁棒性、对语音口音的偏见，以及在潜在空间中的多语言理解。

May, 2023

使提示可调整：基于贝叶斯建模的视觉 - 语言提示学习与数据相关先验

利用贝叶斯框架中的 Prompt 学习方法，通过建模数据相关先验，减轻少样本学习中的过拟合问题，提高提示信息对未知样例的适应性，并展示相对现有方法在基准数据集上显著性能改进的统计结果。

Jan, 2024

从预训练语言模型中引发知识，以实现典型提示语言生成

本研究探讨了如何从预训练语言模型中提取知识，提出了一种基于原型的提示语言生成器，以优化模型并实现有效的零样本和少样本分类。

Jan, 2022

利用图像描述符的语言模型是强的少样本视频语言学习器

本文提出了通过图像和语言模型进行少样本学习的视频语言学习器（VidIL），它在视频描述、视频问答、视频描述检索和视频未来事件预测等多种视频语言任务中表现出强大的性能，并且能够在使用上下文中的几个例子来生成目标输出，进而大大提高视频未来事件预测的准确率。

May, 2022

使用指令微调语言模型的自动化少样本分类

通过使用指导微调的语言模型，构建了一个用于 few-shot 学习的方法，名为 AuT-Few，该方法可以自动选择适合的任务指令，并实现了较强的 prompt 稳健性和良好的分类性能。

May, 2023

良好的提示价值数百万个参数：面向低资源的基于提示的视觉语言模型学习

本论文研究了基于 prompt 的低资源视觉语言（VL）任务 few-shot 学习。对大规模预训练的 VL 模型进行了实验，证明 FewVLM 在 VQA 任务上的效果优于 Frozen，而且能够达到比更大的模型 PICa 相当的结果。

Oct, 2021

基于 Sentence Embedder 引导的语句编码器 (SEGUE) 用于口语语言理解

本研究采用知识蒸馏的方式，将文本句子嵌入器直接转移到 wav2vec 2.0，以预训练 SLU 编码器。结果表明，使用配对的音频 - 文本数据集进行预训练可以提高 SLU 任务性能，但在某些任务上表现不佳。

May, 2023

使用预训练模型的自适应多语言语音识别

使用预训练的 wav2vec 2.0 和 MBART50 模型，结合自适应权重技术，显著提高公共数据集上多语言语音识别的准确性，比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。

May, 2022