BriefGPT.xyz
Ask
alpha
关键词
multimodal large models
搜索结果 - 4
从高效多模型到世界模型:一项调研
多模态大模型(MLMs)是一个重要的研究重点,通过将强大的大型语言模型与多模态学习相结合,对不同的数据模态执行复杂任务。本文综述了 MLMs 的最新发展和挑战,强调它们在实现人工通用智能和作为世界模型路径中的潜力。我们概述了关键技术,如多模
→
PDF
9 days ago
MMGPL:多模态医学数据分析与图形提示学习
使用图提示学习模型进行神经系统疾病的诊断,通过学习 GPT-4 获取相关疾病概念,计算概念与图像区块的语义相似度,并减少不相关区块的权重,同时利用图卷积网络层提取图的结构信息,以提升预训练模型在神经系统疾病诊断上的性能。
PDF
6 months ago
对基于知识的视觉问答模型 GPT-4V 的全面评估
通过从三个角度对 GPT-4V 进行深入评估,即常识知识、细粒度世界知识和具有决策理由的综合知识,我们发现 GPT-4V 在这三项任务上均取得了最好的性能,并且在使用复合图像进行少样本学习时具有增强的推理和解释能力,但在处理世界知识时可能导
→
PDF
8 months ago
UniBriVL:音频驱动扩散模型的稳健通用表示和生成
我们提出了一种名为 UniBriVL 的新型通用语言表征学习方法,该方法基于图像和语言的桥接,将音频、图像和文本嵌入到共享空间中,实现各种多模态应用。该方法解决了语言(文本和音频)表征学习中的主要挑战,并有效捕捉了音频和图像之间的相关性,同
→
PDF
a year ago
Prev
Next