BriefGPT.xyz
Ask
alpha
关键词
multi-images
搜索结果 - 1
MMMModal -- 多图像 多音频 多轮 多模态
我们介绍了一种开创性的多模态大型语言模型,能够在一个多轮对话中理解多图像、多音频和多图像 - 多音频。借助最先进的模型,我们利用 SigLIP 编码器进行视觉输入和 Whisper 编码器进行音频输入。值得注意的是,这个多模态大型语言模型是
→
PDF
5 months ago
Prev
Next