提升音频语言模型在低资源语言和指令遵循能力上的表现

Sep, 2024

提升音频语言模型在低资源语言和指令遵循能力上的表现

Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models

Potsawee Manakul, Guangzhi Sun, Warit Sirichotedumrong, Kasima Tharnpipitchai, Kunat Pipatanakul

TL;DR本研究解决了音频语言模型在低资源语言（如泰语）中的表现不足问题，指出尽管基于多语种基础构建，但现有模型在低资源语言上缺乏跨语言能力。研究提出了一种数据混合的方法，该方法将音频理解与语音指令遵循能力整合到一个统一模型中，实验结果显示Typhoon-Audio在英语和泰语上的表现显著优于传统开源模型，接近行业领先的Gemini-1.5-Pro。

Abstract

Audio Language Models can understand audio inputs and perform a range of audio-related tasks based on instructions, such as speech recognition and audio captioning, where the instructions are usually textual prompts. Au

发现论文，激发创造

大规模多语言自动语音识别：50种语言，1个模型，10亿参数

本文探讨了利用单一声学模型进行多种语言训练，以提高低资源语言的自动语音识别性能，并简化支持多种语言的ASR系统的部署。作者在51种语言上进行广泛的基准测试和比较，表明与单语言训练相比，多语言训练的ASR模型可以提高识别性能，特别是对于低资源语言。与单语言基线相比，联合模型、具有语言输入的联合模型和多头模型的平均WER相对减少20.9％、23％和28.8％。据我们所知，这是第一次研究超过50种语言和超过16,000小时声音跨其的多语言ASR的大规模研究。

Jul, 2020

通过多语言微调和持续预训练为新的欠资源语言调整多语音表示模型

本研究尝试将预训练的多语言wav2vec 2.0神经模型应用于研究极度濒危的阿伊努语，通过多语言微调和预训练对模型进行改进，结果显示继续预训练是适应新语言的最有效方法，并且利用类似语言的数据进行微调可以显著减少错误率。

Jan, 2023

学习跨语言映射提升低资源语音识别的数据增强

利用可学习的跨语言映射和数据增强来提高低资源语言的端到端语音识别准确度。

Jun, 2023

AudioPaLM：一种可以说话和听取的大型语言模型

AudioPaLM结合了PaLM-2和AudioLM两种语言模型，实现了对文本和语音的处理和生成，在语音识别和语音翻译等应用中具有优异性能，并且具有零-shot语音到文字翻译的能力。

Jun, 2023

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在Multilingual LibriSpeech上的实验证明，即使在LLM被冻结或者音频编码器使用几乎1秒的步幅生成更少嵌入时，多语种ASR仍然可行，从而为LLMs在长篇音频中进行操作开辟了可能性。

Jul, 2023

用低语启迪我：使用语音嵌入增强大型语言模型对口述剧本的分析

通过音频-语言知识蒸馏框架，将语音数据中的声学和语用信息转移到学生语言模型，从而改进了传统语言模型在分析口述文本任务上的性能。

Nov, 2023

Audio Flamingo: 一种具备少样本学习和对话能力的新型音频语言模型

音频Flamingo是一个新颖的音频语言模型，具备强大的音频理解能力、通过上下文学习和检索快速适应未见任务的能力、以及强大的多轮对话能力。通过引入一系列的训练技术、架构设计和数据策略，我们提高了模型的这些能力，并在各种音频理解任务上进行了详细评估，取得了新的最先进水平。

Feb, 2024

AIR-Bench: 大规模音频语言模型的生成理解基准评估

近期，为人-音频交互所提出的指令遵循型音频语言模型引起了广泛关注。然而，由于缺乏评估以音频为中心的交互能力的基准，这一领域的发展受阻。本文引入了AIR-Bench（音频指令评测基准），这是首个旨在评估音频语言模型在理解各种类型音频信号（包括人声、自然声音和音乐）以及在文本格式下与人类互动方面的能力的基准。AIR-Bench包括两个维度：基础和对话评测。通过实验证明，使用GPT-4评估生成的假设得分与人工评估结果之间存在高度一致性。通过评估结果揭示现有LALMs的局限性，AIR-Bench可以为未来研究方向提供启示。

Feb, 2024

通过多指令训练教授一种多语言的大型语言模型理解多语言语音

利用多语言语言模型与多语言语音编码器，本研究提出BLOOMZMMS，旨在为语音识别及其它领域利用大型语言模型的能力。通过多指令训练方法，我们验证了从文本到语音模态的语言知识的可传递性。实验证明，可以有效地学习并使多语言语音表征与多语言语言模型对齐。尽管初始表征在任务泛化方面存在局限性，但我们通过生成多指令样式的合成目标解决了这个问题。零样本评估结果证实了我们的方法在多种任务上的强大鲁棒性，包括语音翻译和多语言口语理解，从而为语音领域应用大型语言模型开辟了新的途径。

Apr, 2024

SpeechVerse: 一个大规模可推广的音频语言模型

通过SpeechVerse多任务训练和课程学习框架，将预训练的语音和文本基础模型结合，使用连续潜在表示对模型进行指令微调，实现在各种自然语言指令下在多样的语音处理任务上实现最优的零样本性能。经过广泛的基准测试，我们的SpeechVerse模型表现出更高的性能，甚至超过了11个任务中的9个常规任务特定基准模型。

May, 2024