BriefGPT.xyz
Ask
alpha
关键词
q-former
搜索结果 - 3
使用大型语言模型的端到端语音摘要
提出了一种利用 Q-Former 作为音频 - 文本模态连接器、采用大型语言模型从语音特征直接生成文本摘要的端到端 SSum 模型,并采用多阶段训练方法来提高模型处理长篇语音的能力,最终在 How-2 数据集上取得了具有竞争力的性能。
PDF
4 days ago
连接语音编码器和大型语言模型用于 ASR
该论文通过比较研究了三种常用的连接结构,包括全连接层、多头交叉注意力和 Q-Former,并对 Whisper 系列的语音编码器和 Vicuna 系列的大语言模型进行了实验,结果表明基于 Q-Former 的大语言模型相比其他连接结构在 L
→
PDF
9 months ago
CVPR
LLMVA-GEBC: 带通用事件边界字幕视频适配器的大型语言模型
本文详细介绍了我们在 CVPR 2023 通用事件边界字幕(GEBC)比赛中的得奖作品,提出了 LLMVA-GEBC 模型,该模型采用预训练 LLM 生成高质量的人类式字幕,在训练固定的视觉特征提取和 LLM 同时采用视频 Q-former
→
PDF
a year ago
Prev
Next