BriefGPT.xyz
大模型
Ask
alpha
关键词
whisper encoder
搜索结果 - 3
跨可转移的语音转文大型语言模型对齐模块
利用大型语言模型(LLMs)和语音基础模型,先进的语音 - 文本双模工作可以实现复杂的任务,如口语翻译(ST)和问题回答(SQA),同时具有更简单的结构。本文利用 Whisper 编码器和预训练的 Yi-6B 的功能,通过经验结果发现,使用
→
PDF
15 days ago
MMMModal -- 多图像 多音频 多轮 多模态
我们介绍了一种开创性的多模态大型语言模型,能够在一个多轮对话中理解多图像、多音频和多图像 - 多音频。借助最先进的模型,我们利用 SigLIP 编码器进行视觉输入和 Whisper 编码器进行音频输入。值得注意的是,这个多模态大型语言模型是
→
PDF
5 months ago
在低资源条件下调查预训练音频编码器
使用三种最先进的语音编码器,Wav2vec2、WavLM 和 Whisper,对于 7 个语音理解和生成任务在低资源环境下进行了全面的实验,研究结果表明,Whisper 编码器在执行与内容相关的任务时具有最好的性能和收敛速度。
PDF
a year ago
Prev
Next