multimodal knowledge | BriefGPT

关键词multimodal knowledge

搜索结果 - 9

将隐式多模态知识融入到零资源对话生成中的 L-LMs
通过利用隐式多模态知识，将视觉隐式知识融入基于语言模型的对话生成系统，能够在零资源情境下实现更丰富的对话生成，我们提出了一种名为 VIKDF 的框架，通过两个主要阶段（知识蒸馏和知识整合）实现，能够有效解决零资源情境中多样、高质量对话数据集
PDF2 months ago
感知，对话，然后适应：用于开放世界视频识别的基础模型的多模态知识传递
我们提出了一种通用的知识转移流程，通过从基础模型中逐步开发和整合外部多模态知识，提升开放世界视频识别的性能，在三个具有挑战性的开放世界视频基准数据集上达到了最先进的性能。
PDF5 months ago
基于大型语言模型的知识导向视觉问答中的模态感知集成
基于知识的视觉问答（KVQA）对于利用外部知识，如知识图谱（KGs）来回答视觉问题进行了广泛研究。本文提出了一种新颖的 LLMs 模态感知集成方法（MAIL），用于 KVQA，它巧妙地利用多模态知识进行图像理解和知识推理，并在两个基准数据集
PDF5 months ago
M2K-VDG: 模型自适应多模态知识锚定增强的视频驱动对话生成
通过计算困惑度，我们揭示了不同的视频对话生成（VDG）模型经历了不同的幻觉，并展示了多样的锚点标记。基于这一观察，我们提出了一种模型适应性的多模态知识锚点增强框架 M2K-VDG，用于减少幻觉产生。进一步，我们引入了反事实效应以更准确地检测
PDF5 months ago
知识图谱支持的篮球基准测试和视频字幕
提出了一个用于视频字幕的新的多模态篮球知识支持基准，通过构建多模态篮球比赛知识图谱，将视频中的时间信息编码并推荐识别关键球员，以提升篮球直播字幕的质量。
PDF6 months ago
MineDojo：基于互联网规模知识构建开放式具身代理
介绍了建立于 Minecraft 游戏之上的 MineDojo 框架，该框架支持多任务目标环境，同时结合大规模的多模态知识库和灵活可扩展的代理架构，利用大规模的预先训练的视频语言模型作为学习奖励函数的新型代理学习算法，成功解决一系列无需设计
PDF2 years ago
ICLR视觉增强语言建模
提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展
PDF2 years ago
CVPRMuKEA: 基于多模态知识提取和累积的基于知识的视觉问答
本研究提出了一种用于视觉问答的多模态知识表示方法 (MuKEA)，通过明确的三元组来关联视觉对象和事实答案，从而构建视觉相关和可解释的多模态知识，该方法可以有效提高对知识的需求的数据集上的表现。
PDF2 years ago
从视觉到语言的知识迁移：如何实现和衡量？
探究使用视觉数据来补充大型语言模型知识的方法，并提出一种基于 memory colors 任务查询和模型训练数据过滤的方法，以用于测量模型的视觉知识传输能力，并介绍了一种涉及视觉想象步骤的模型架构，并发现我们的方法可以成功用于衡量模型的视觉
PDF3 years ago