BriefGPT.xyz
大模型
Ask
alpha
关键词
vision capabilities
搜索结果 - 3
CVPR
视频 LLM-online:用于流媒体视频的在线视频大语言模型
通过学习视频流进行大规模语言模型增强,提供视觉能力及实时对话功能,以应对视频流输入的视频流对话学习目标、数据生成方案和优化推断流程的新颖学习框架。
PDF
17 days ago
开拓新领域:探索多模态 LLMs 的地理和地理空间能力
通过进行一系列实验,我们研究了多模态大型语言模型在地理和地理空间领域的知识和能力,重点关注前沿模型 GPT-4V 的视觉能力,并与开源模型进行性能比较。我们的方法涉及使用一套地理任务的小规模基准测试这些模型,测试它们在不同难度任务上的能力。
→
PDF
7 months ago
实现视觉辅助对话的社交机器人
本论文提出了一个初步实现的对话管理器,利用最新的大型语言模型(如 GPT-4,IDEFICS)来将视觉能力整合到对话代理中,以增强传统的基于文本的提示与实时视觉输入。该系统的提示工程结合了对图像的对话与摘要,以确保在上下文保留和计算效率之间
→
PDF
8 months ago
Prev
Next