BriefGPT.xyz
大模型
Ask
alpha
关键词
multimodal large model
搜索结果 - 2
VisionLLM v2:一种适用于数百种视觉语言任务的端到端通用多模态大语言模型
VisionLLM v2 是一种端到端的多模态大型模型,它在一个框架中统一了视觉感知、理解和生成。它通过一种名为 “超级链接” 的信息传输机制连接了模型与特定任务解码器,以实现灵活的任务信息传输和梯度反馈,并在多任务场景中解决训练冲突,并通
→
PDF
22 days ago
MedXChat: 将胸部 X 光成像模态与统一的多模态大型模型相结合
MedXChat 是一个用于医学助理和用户之间无缝互动的统一多模态大型模型,包括 CXR 到报告生成、基于 CXR 的视觉问答和文本到 CXR 合成三个关键功能。该模型在医学多模态应用中显示出优异的跨任务适应性,并在 MIMIC 数据集上的
→
PDF
7 months ago
Prev
Next