BriefGPT.xyz
大模型
Ask
alpha
关键词
visual capabilities
搜索结果 - 4
MammothModa: 多模大语言模型
我们介绍了 MammothModa,这是另一个多模态大型语言模型(MLLM),旨在从基本基线实现最先进的性能。我们关注了三个关键设计见解:(i)在保持复杂语言理解的同时融入视觉能力:除了视觉编码器外,我们还将视觉注意力专家纳入 LLM 以增
→
PDF
8 days ago
评估 ChatGPT-4 Vision 在巴西国家本科计算机科学考试中
ChatGPT-4 Vision 在巴西 2021 年本科国家考试中展现了优秀的视觉能力,但在问题解释、逻辑推理和视觉敏锐度方面遇到了困难,提示未来考试需要改进问题设计。研究结果表明,虽然 ChatGPT-4 Vision 在多模态学术评估
→
PDF
20 days ago
使用多模态大型语言模型解决组合问题:一个关于旅行推销员问题的案例研究
本文探讨了多模态大型语言模型(MLLMs)利用其视觉能力通过分析平面上点分布的图像来 “观察” 解决旅行商问题(TSP)的方法。实验证实了零样本、少样本、自我集成和自我精化零样本评估的结果令人鼓舞,我们期待这些发现将激发进一步探索 MLLM
→
PDF
23 days ago
探索视觉 - 语言模型的边界:当前方法和未来方向的综述
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
PDF
4 months ago
Prev
Next