Qwen2-Audio 技术报告

Jul, 2024

Qwen2-Audio Technical Report

Yunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei...

TL;DRQwen2-Audio是一个大规模音频语言模型，它能够接收各种音频信号输入，并根据语音指令进行音频分析或直接文本回复。它具有较强的指令跟随能力，实现了语音聊天和音频分析两种交互模式，优化了模型的性能，目的是促进多模态语言研究的发展。

Abstract

We introduce the latest progress of Qwen-Audio, a large-scale audio-language model called qwen2-audio, which is capable of accepting various audio signal inputs and performing audio analysis or direct textual res

发现论文，激发创造

AudioPaLM：一种可以说话和听取的大型语言模型

AudioPaLM结合了PaLM-2和AudioLM两种语言模型，实现了对文本和语音的处理和生成，在语音识别和语音翻译等应用中具有优异性能，并且具有零-shot语音到文字翻译的能力。

Jun, 2023

Parrot: 通过学习提问增强多轮聊天模型

通过引入Parrot，一种具有高可扩展性的解决方案，我们在多轮对话中自动生成高质量的指导语料，并利用这些语料来提高聊天模型在多轮对话中的效果。

Oct, 2023

用低语启迪我：使用语音嵌入增强大型语言模型对口述剧本的分析

通过音频-语言知识蒸馏框架，将语音数据中的声学和语用信息转移到学生语言模型，从而改进了传统语言模型在分析口述文本任务上的性能。

Nov, 2023

Qwen-Audio：通过统一的大规模音频语言模型推进通用音频理解

最近，受到广泛关注的指令跟随音频语言模型在音频与人类的交互方面表现出色。然而，缺乏能够处理各种音频类型与任务的预训练音频模型阻碍了该领域的进展。本文通过扩大音频语言预训练的规模，覆盖30多项任务和各种音频类型（如人类语音、自然声音、音乐和歌曲），开发了Qwen-Audio模型，以促进通用音频理解能力。然而，直接同时训练所有任务和数据集可能会引起干扰问题，因为不同数据集的文本标签因任务焦点、语言、注释粒度和文本结构的差异而有相当大的变化。为了克服一对多干扰，我们通过对解码器进行基于层次标签序列的条件设计了一个多任务训练框架，以通过共享和明确的标签来鼓励知识共享和避免干扰。值得注意的是，Qwen-Audio在不需要任何特定任务的微调的情况下，跨多个基准任务取得了令人印象深刻的表现，超过了其对手。借助Qwen-Audio的能力，我们进一步开发了Qwen-Audio-Chat，它可以接受来自不同音频和文本输入的输入，实现多轮对话并支持各种以音频为中心的场景。

Nov, 2023

AIR-Bench: 大规模音频语言模型的生成理解基准评估

近期，为人-音频交互所提出的指令遵循型音频语言模型引起了广泛关注。然而，由于缺乏评估以音频为中心的交互能力的基准，这一领域的发展受阻。本文引入了AIR-Bench（音频指令评测基准），这是首个旨在评估音频语言模型在理解各种类型音频信号（包括人声、自然声音和音乐）以及在文本格式下与人类互动方面的能力的基准。AIR-Bench包括两个维度：基础和对话评测。通过实验证明，使用GPT-4评估生成的假设得分与人工评估结果之间存在高度一致性。通过评估结果揭示现有LALMs的局限性，AIR-Bench可以为未来研究方向提供启示。

Feb, 2024

音频对话：用于音频和音乐理解的对话数据集

通过大型语言模型生成多轮对话，展示了音频理解中的复杂性和适用性。

Apr, 2024

GAMA: 具有先进音频理解和复杂推理能力的大型音频语言模型

提出了GAMA（一种新型通用大型音频语言模型）来解决非语音声音和非语言言语的感知和理解问题。通过集成LLM与多种音频表示形式以及利用合成生成的指令调节数据集对其进行训练，实现了音频理解和复杂推理的能力。通过自动化和专家评估，表明GAMA在各种音频理解任务中表现优于文献中其他LALM模型，具有1%-84%的优势。

Jun, 2024

AudioBench：一个音频大语言模型通用基准测试

通过提供相关数据集和评估指标，我们引入了AudioBench，这是一个旨在评估语音大型语言模型（AudioLLMs）的新基准。我们在研究中评估了四个模型的能力，并发现没有单一模型在所有任务中都表现出色。我们概述了AudioLLMs的研究展望，并预计我们的开源代码、数据和排行榜将为未来模型发展提供一个强大的测试平台。

Jun, 2024

Qwen2技术报告

Qwen2系列是我们最新的大语言模型和大多模态模型，它超越了先前的开源模型，展现出在语言理解、生成、多语言能力、编码、数学和推理等各种领域的竞争性表现。

Jul, 2024

提升音频语言模型在低资源语言和指令遵循能力上的表现

本研究解决了音频语言模型在低资源语言（如泰语）中的表现不足问题，指出尽管基于多语种基础构建，但现有模型在低资源语言上缺乏跨语言能力。研究提出了一种数据混合的方法，该方法将音频理解与语音指令遵循能力整合到一个统一模型中，实验结果显示Typhoon-Audio在英语和泰语上的表现显著优于传统开源模型，接近行业领先的Gemini-1.5-Pro。

Sep, 2024