面向说话者自适应视觉语音识别的深度神经网络提示调整

Feb, 2023

面向说话者自适应视觉语音识别的深度神经网络提示调整

Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition

Minsu Kim, Hyung-Il Kim, Yong Man Ro

TL;DR本文提出了一种基于 Deep Neural Networks 的 prompt tuning 方法，通过针对目标演讲者的适应数据进行提示微调，显著提高了预先训练的 Visual Speech Recognition 模型在未知演讲者上的性能。

Abstract

visual speech recognition (VSR) aims to infer speech into text depending on lip movements alone. As it focuses on visual information to model the speech, its performance is inherently sensitive to personal lip appearances and movements, and this makes the VSR models show degraded perfo

visual speech recognition speaker-adaptive vsr deep neural networks prompt tuning unseen speakers

发现论文，激发创造

基于 Prompt 调整的视觉 - 语言模型适应器

本研究提出一个新的模型 Prompt-Adapter，将预训练的提示调整与高效自适应网络相结合，用于高效的视觉 - 语言模型适应过程，超过公共数据集中少量数据情况下的现有方法，在此基础上，探讨了多任务预训练初始化与 prompt tuning 相结合的思想。

Mar, 2023

视觉提示调优

该论文提出了一种名为 Visual Prompt Tuning（VPT）的高效且有效的调整大规模 Transformer 模型的替代方案，相较于 fine-tuning，VPT 仅在输入空间中引入很少的可训练参数，通过在广泛的下游识别任务上的实验，我们发现 VPT 在许多情况下甚至比全尺寸 fine-tuning 更加优秀，同时减小了每个任务的存储成本。

Mar, 2022

使用 Prompt Tuning 对生成式口语模型进行探索，以处理语音处理任务

本研究首次探讨了基于生成式口语语言模型 (GSLM) 的提示调整范式用于语音处理任务，实验结果表明，与下游精细调整模型相比，提示调整技术使用的可调参数更少，在语音分类任务中实现了较高性能。

Mar, 2022

SA$^2$VP：空间对齐和自适应视觉提示

通过学习二维提示令牌映射来进行图像分类的细粒度提示，以模型化输入图像的空间关系和提高有效提示能力。

Dec, 2023

野外多语言视觉语音识别

本文旨在通过视觉手势识别来实现基于嘴唇运动的语音识别，通过优化模型设计和参数，加入额外任务，并增加数据扩充，提高模型性能，实现在不同语言下超越以前的所有基于公开数据集的模型表现，并比训练基于非公开数据集的模型表现更好。

Feb, 2022

重访视觉调优的能量与提示

通过关键参数的优化和初始化，我们提出了一种改进的视觉提示调整方法，用于优化预训练模型在下游任务中的性能表现，并在大量实验证明该方法在自我监督预训练适应性上取得了显著的性能改进。

Feb, 2024

基于提示调整的语音分类任务 SpeechPrompt v2

本文提出了 “SpeechPrompt V2” 语音分类的编程框架，该框架在统一的下游任务生成和多个语言的情境下具有高效性并取得了优秀的性能。

Mar, 2023

用于视觉语言预训练模型的近似提示调优

本研究提出了一种名为 “Approximated Prompt Tuning” 的方法，用以提高视觉语言预训练模型的迁移学习效率，其基于软提示令牌的独立信息扩散步骤，从而有效地避免了昂贵的全局关注建模，并显著降低了计算复杂度。

Jun, 2023

用于自监督编码器 - 解码器语音模型的提示和适配器调整

通过在 Wav2Seq 模型上进行提示和适配器调优，我们在序列生成任务中取得了显著的成果，尤其在 ASR 的词错误率和槽位填充的 F1 分数上相对于往前的工作分别提高了 53% 和 27%。在 7 种语言中，当可训练参数有限时，提示和适配器调优表现优于传统的微调方法，尤其在资源匮乏的情况下，提示的表现更好。

Oct, 2023

我们真的需要大量的视觉提示吗？

本文研究了视觉转换器结构中 Prompt 数量对微调效果和自注意力操作的影响。通过理论和实证分析，我们发现增加 Prompt 数量并不能带来线性的性能提升。为此，我们提出 Prompt Condensation 技术来防止 Prompt 数量过多导致的性能下降，实验证明我们的方法在维持准确度的同时能减少大约 70% 的 prompts 数量。

May, 2023