探索基于自监督和弱监督的最新基础模型在汉英混合语音识别和语音转文字翻译的零迁移能力

Dec, 2023

探索基于自监督和弱监督的最新基础模型在汉英混合语音识别和语音转文字翻译的零迁移能力

Investigating Zero-Shot Generalizability on Mandarin-English Code-Switched ASR and Speech-to-text Translation of Recent Foundation Models with Self-Supervision and Weak Supervision

PDF

Chih-Kai Yang, Kuan-Po Huang, Ke-Han Lu, Chun-Yi Kuan, Chi-Yuan Hsiao...

TL;DR本文评估了几种基于自监督或弱监督的尖端大型基础模型（包括 SeamlessM4T、SeamlessM4T v2 和 Whisper-large-v3）在三个混合代码语料库上的表现。我们发现自监督模型可以达到接近受监督模型的性能，表明多语言自监督预训练的有效性。我们还观察到这些模型在建模句内代码切换方面仍有改进空间，常犯相似错误并在代码切换任务的性能上表现不理想。此外，我们探索了 Whisper 的几种变体的有效性，并得出结论它们在代码切换场景中仍然有效，鼓励研究类似的自监督模型技术以提升代码切换任务的性能。

Abstract

This work evaluated several cutting-edge large-scale foundation models based on self-supervision or weak supervision, including SeamlessM4T, SeamlessM4T v2, and Whisper-large-v3, on three →

large-scale foundation models self-supervision code-switched corpora multilingual self-supervised pre-training intra-sentential code-switching

发现论文，激发创造

多语言自学习语音表示改进资源有限的非洲语种混杂语音识别

利用自监督语音表示的微调和利用转录训练的 n-gram 语言模型增强多语言表示，相对于从头开始训练的混合模型，将代码切换数据的绝对词错误率降低了高达 20%。研究结果表明，在训练数据受限的情况下，微调自监督表示是一种更优秀和可行的解决方案。

Nov, 2023

跨语言迁移学习的语音翻译

利用 Whisper 作为多语言语音模型示例，我们探究了语音编码器产生的话语表征，虽然保留了一些语言敏感信息，但是来自不同语言的单词被映射到相似的语义空间，从 Speech-to-Speech 检索任务中的高召回率可以看出；借助这个共享的嵌入空间，我们证明了在语音翻译中的零 - shot 跨语言转移；当 Whisper 模型仅使用英语到中文翻译数据进行微调时，它在其他语言的输入话语上表现出性能的提升；此外，在低资源语言的实验中，通过利用跨语言表示，Whisper 可以对在预训练过程中未见的语言的话语进行语音翻译。

Jul, 2024

零翻译语种混合语音识别

在零 - shot 场景下，我们提出了一种基于转写的方法，通过简化单语模块的操作并将语种转录成单一脚本，来促进有效的代码交换自动语音识别系统。该方法通过后续的双语模块来检测多语言转录点并综合外部语言模型信息，应用于端到端可微分的神经网络中，在普通话 - 英语 SEAME 测试集上证明了其有效性。

Nov, 2022

多语言自监督和弱监督语音预训练与适应未见语言的比较

本文研究了两个多语言语音模型在适应未见语言上的性能比较，发现模型的预训练数据中包含的语言家族数量和训练时长能预测模型的表现，与预训练方法的差异不相关。

May, 2023

零样本跨语言意图预测和槽填充的多语言码交换

本文提出了一种通过多语言代码切换来增强 Transformer 的语言中立性的新方法，从而解决零样本学习中在未知目标语言下预测用户意图和检测相应选项的问题，并在多个语言上对 MultiATIS ++ 数据集进行实验，相较于现有技术，平均精度提高了 + 4.2％，F1 提高了 + 1.8％。通过收集英语和海地克里奥尔语的新人工标注推文数据集，本文将该方法应用于危机信息学。

Mar, 2021

零對應跨模態轉換的模塊化語音轉文本翻譯

通过独立训练的编码器和解码器，通过共享的固定大小表示组合，可以在语音到文本翻译中取得竞争力的性能，本研究表明这种方法可以通过多语种训练进一步改进，我们观察到在零 - shot 跨模态语音翻译中显著提高，甚至在几种语言上胜过基于 XLSR 的有监督方法。

Oct, 2023

大规模弱监督进行稳健语音识别

研究了训练简单的语音处理系统预测互联网音频大量转录的能力，在 680,000 小时的多语言和多任务监督的基础上，生成的模型具有很好的泛化能力，并且通常与之前的完全监督结果竞争，但在零次传输设置下不需要进行任何微调，与人类相比，模型的准确性和稳健性接近，并且同时发布了模型和推理代码，作为进一步稳健语音处理工作的基础。

Dec, 2022

MultiCQA：基于自监督文本匹配模型的零样本迁移在大规模上的应用

研究了 140 个英文社区问答论坛上自我监督训练的文本匹配模型的零样本转移能力，并调查了其在九个答案选择和问题相似性任务的模型表现，提出了结合自我监督与监督多任务学习的最佳零样本转移模型，该模型在所有九个任务上均实现了最新的状态。

Oct, 2020

Whistle: 数据高效的多语言和跨语音识别模型：通过弱语音监督方法实现

本文研究了预训练与弱语音监督的方法，提出了一种名为 Whistle 的数据有效 MCL-ASR 方法，通过国际音标转写，构建了一个基于 CommonVoice 数据集的实验平台，实验证明基于音素的模型在多语言语音识别中具有更好的性能和高数据效率。

Jun, 2024

发掘 Web 规模语音模型的潜在能力，实现零样本任务的普适性

本文通过调整 Prompt 的方式，从三个任务 (音视频语音识别、混合语音识别、语音翻译) 入手，探究了该模型 Whisper 的应用性能。实验证明，相对于默认 Prompt，本文提出的 Prompt 在零 - shot 任务上的表现提升了 10% 到 45%，并在一些数据集上甚至超越了 SotA 监督模型。此外，实验还揭示了 Whisper 的许多有趣属性，例如其对提示的鲁棒性、对语音口音的偏见，以及在潜在空间中的多语言理解。

May, 2023