Qwen2-Audio 技术报告
AudioPaLM结合了PaLM-2和AudioLM两种语言模型,实现了对文本和语音的处理和生成,在语音识别和语音翻译等应用中具有优异性能,并且具有零-shot语音到文字翻译的能力。
Jun, 2023
通过引入Parrot,一种具有高可扩展性的解决方案,我们在多轮对话中自动生成高质量的指导语料,并利用这些语料来提高聊天模型在多轮对话中的效果。
Oct, 2023
通过音频-语言知识蒸馏框架,将语音数据中的声学和语用信息转移到学生语言模型,从而改进了传统语言模型在分析口述文本任务上的性能。
Nov, 2023
最近,受到广泛关注的指令跟随音频语言模型在音频与人类的交互方面表现出色。然而,缺乏能够处理各种音频类型与任务的预训练音频模型阻碍了该领域的进展。本文通过扩大音频语言预训练的规模,覆盖30多项任务和各种音频类型(如人类语音、自然声音、音乐和歌曲),开发了Qwen-Audio模型,以促进通用音频理解能力。然而,直接同时训练所有任务和数据集可能会引起干扰问题,因为不同数据集的文本标签因任务焦点、语言、注释粒度和文本结构的差异而有相当大的变化。为了克服一对多干扰,我们通过对解码器进行基于层次标签序列的条件设计了一个多任务训练框架,以通过共享和明确的标签来鼓励知识共享和避免干扰。值得注意的是,Qwen-Audio在不需要任何特定任务的微调的情况下,跨多个基准任务取得了令人印象深刻的表现,超过了其对手。借助Qwen-Audio的能力,我们进一步开发了Qwen-Audio-Chat,它可以接受来自不同音频和文本输入的输入,实现多轮对话并支持各种以音频为中心的场景。
Nov, 2023
近期,为人-音频交互所提出的指令遵循型音频语言模型引起了广泛关注。然而,由于缺乏评估以音频为中心的交互能力的基准,这一领域的发展受阻。本文引入了AIR-Bench(音频指令评测基准),这是首个旨在评估音频语言模型在理解各种类型音频信号(包括人声、自然声音和音乐)以及在文本格式下与人类互动方面的能力的基准。AIR-Bench包括两个维度:基础和对话评测。通过实验证明,使用GPT-4评估生成的假设得分与人工评估结果之间存在高度一致性。通过评估结果揭示现有LALMs的局限性,AIR-Bench可以为未来研究方向提供启示。
Feb, 2024
提出了GAMA(一种新型通用大型音频语言模型)来解决非语音声音和非语言言语的感知和理解问题。通过集成LLM与多种音频表示形式以及利用合成生成的指令调节数据集对其进行训练,实现了音频理解和复杂推理的能力。通过自动化和专家评估,表明GAMA在各种音频理解任务中表现优于文献中其他LALM模型,具有1%-84%的优势。
Jun, 2024
通过提供相关数据集和评估指标,我们引入了AudioBench,这是一个旨在评估语音大型语言模型(AudioLLMs)的新基准。我们在研究中评估了四个模型的能力,并发现没有单一模型在所有任务中都表现出色。我们概述了AudioLLMs的研究展望,并预计我们的开源代码、数据和排行榜将为未来模型发展提供一个强大的测试平台。
Jun, 2024
本研究解决了音频语言模型在低资源语言(如泰语)中的表现不足问题,指出尽管基于多语种基础构建,但现有模型在低资源语言上缺乏跨语言能力。研究提出了一种数据混合的方法,该方法将音频理解与语音指令遵循能力整合到一个统一模型中,实验结果显示Typhoon-Audio在英语和泰语上的表现显著优于传统开源模型,接近行业领先的Gemini-1.5-Pro。
Sep, 2024