audio encoder | BriefGPT - AI 论文速递

关键词audio encoder

搜索结果 - 6

使用音频启动大型语言模型进行通用语音摘要
利用大型语言模型的处理和推理能力，我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器，以使语言模型能够解释语音输入，并可根据输入模态产生一致的响应。与先前的方法不同，我们的方法能摘要任意领域
PDF24 days ago
零样本音乐标签的联合音乐和语言注意力模型
我们提出了一个零样本音频标记系统，使用 JMLA 模型来解决开放式音乐标记问题，并通过引入稠密注意连接来提高编码器和解码器之间的信息流动。我们收集了一个大规模的音乐和描述数据集，并使用 ChatGPT 将原始描述转化为形式化和多样化的描述以
PDF9 months ago
基于同构音频文本嵌入的灵活关键词检测
利用音频一致性文本编码器，通过转换文本到音素再到嵌入，检测任意关键词并辅以混淆关键词生成，实现具有强辨别力的音频 - 文本嵌入验证器。在实验中，该方案在 Libriphrase 难数据集上表现优于现有技术，AUC 指标从 84.21% 提升
PDFa year ago
利用语音识别能力激发大型语言模型
通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在 Multilingual LibriSpeech 上的实验证明，即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时，多语
PDFa year ago
使用音频指导的预训练语言模型解释歌曲歌词
本文提出了 BART-fusion 模型，用于从音乐音频和歌词中生成歌词解释，该模型结合了一个大规模预训练语言模型和一个音频编码器。实验结果显示，该模型能够更好地理解歌词和音乐，生成精确流畅的解释，并且可以帮助人们更准确地检索音乐。
PDF2 years ago
声音引导的语义图像操作
该论文提出了一种将声音直接编码成多模态（图像 - 文本）嵌入空间并从该空间中操纵图像的框架，该方法使用音频编码器从音频输入中生成潜在的表示，并基于对齐的嵌入使用直接潜在优化方法进行声音引导的图像操纵，实验证明该方法在零样本音频分类和语义级图
PDF3 years ago