BriefGPT.xyz
大模型
Ask
alpha
关键词
multimodal techniques
搜索结果 - 3
迷失在翻译中:当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析
通过对多模态机制的详细分析,揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性,并引入了一种名为 “Vision Description Prompting” 的方法,有效提高了具有挑战性的视觉相关任务的性能。
PDF
8 months ago
HGT: 使用 CT 图像和文本进行多模态假体周围关节感染诊断的分层 GCN 基础 Transformer
本研究提出了一种基于深度学习和多模态技术的诊断方法 HGT,通过单向选择性注意机制和基于图卷积网络(GCN)的特征融合网络,有效地将 CT 扫描图像和患者的数字文本数据特征融合。经过消融实验和可解释性评估,该方法在自定义的多模态 PJI 数
→
PDF
a year ago
PathAsst:基于生成式基础人工智能的病理学辅助系统的重新定义
本文提出了 PathAsst,一种生成式 AI 助手,利用了 ChatGPT/GPT-4 和 Vicuna-13B 语言模型与 CLIP 视觉编码器,对 142K 高质量病理图像文本对进行了训练。结果表明,利用这种 AI 模型可以改善病理诊
→
PDF
a year ago
Prev
Next