BriefGPT.xyz
Ask
alpha
关键词
audio-language models
搜索结果 - 3
AIR-Bench: 大规模音频语言模型的生成理解基准评估
近期,为人 - 音频交互所提出的指令遵循型音频语言模型引起了广泛关注。然而,由于缺乏评估以音频为中心的交互能力的基准,这一领域的发展受阻。本文引入了 AIR-Bench(音频指令评测基准),这是首个旨在评估音频语言模型在理解各种类型音频信号
→
PDF
5 months ago
Qwen-Audio:通过统一的大规模音频语言模型推进通用音频理解
最近,受到广泛关注的指令跟随音频语言模型在音频与人类的交互方面表现出色。然而,缺乏能够处理各种音频类型与任务的预训练音频模型阻碍了该领域的进展。本文通过扩大音频语言预训练的规模,覆盖 30 多项任务和各种音频类型(如人类语音、自然声音、音乐
→
PDF
8 months ago
CompA:音频语言模型中的组合推理差距解决方案
通过 ALM 和 CLAP 的训练方法,本研究提出了 CompA,用于评估 ALMs 的组合推理能力,并发现现有的 ALMs 在组合推理方面的表现仅略好于随机选择,而通过改进训练方法和引入模块化对比损失的 CompA-CLAP 显著提高了组
→
PDF
9 months ago
Prev
Next