large multimodal models | BriefGPT

关键词large multimodal models

搜索结果 - 72

大陆十字路口：基于大型多模态模型的文化适应自动工艺品提取
通过研究大型多模态模型（LMMs）在识别文化背景、不同文化的表征准确性以及跨文化边界调整内容的有效性的综合三阶段研究，本文揭示了 LMMs 文化理解水平的差异，通过 Dalle Street 数据集验证，进而提出了一种高度可组合的 Cult
PDF4 days ago
MMEvalPro：多模态基准测试的可靠和高效评估
通过提出 MMEvalPro 基准测试，我们针对多模态模型在视觉问题中的性能进行了评估的可靠性进行了改进，其结果表明该基准测试更具挑战性且更可信，为进一步推动未来研究提供了重要潜力。
PDF7 days ago
MM-Instruct: 大型多模态模型对齐的生成视觉指令
该研究介绍了 MM-Instruct，这是一个大规模、多样化和高质量的视觉指导数据集，旨在增强大型多模态模型（LMMs）的指令跟随能力，并通过使用现有的 LLMs 从大规模图像字幕数据集生成新的视觉指导数据，并介绍了一个基于生成的指导数据来
PDF8 days ago
ARES：交替强化学习和监督微调，通过多样化的 AI 反馈提升多模态链式思维推理
大型多模型 (LMMs) 在理解人类指令方面表现出色，并在各种任务中展现出显著的结果。通过强化学习来自人类反馈 (RLHF) 和人工智能反馈 (RLAIF) 进一步完善了 LLMs，通过将其与特定偏好对齐。我们提出了一种两阶段算法 AREA
PDF11 days ago
针对大型多模型中的语音特定风险进行探究：一种分类、基准和洞见
在多模态设置中，特别是在语音模态中，检测高风险互动的挑战仍然未被广泛探索，本文提出了一个语音特定的风险分类方法，并创建了一个小规模数据集来评估当前大型多模态模型在检测这些风险类别方面的能力。
PDF11 days ago
大型多模态模型时代中的指代表达理解评估再探
参考表达理解（REC）涉及根据文本描述定位目标实例。本研究质疑现有基准对大型多模态模型（LMMs）的全面性能力，通过手动检查现有基准，发现高标注错误率，并通过排除问题实例和重新评估多种 LMMs 来解决。为了评估现代 REC 模型，引入了
PDF12 days ago
PIN：一种适用于配对和交错多模态文档的知识密集数据集
最近，对大型多模态模型（LMMs）的最新进展借鉴了丰富的多模态数据集，以增强复杂的知识驱动任务的能力。然而，感知和推理错误的持续挑战限制了它们的效力，尤其是在解释复杂视觉数据和推断多模态关系方面。针对这些问题，我们引入了一种新颖的数据集格式
PDF16 days ago
可学习的上下文向量用于视觉问答
学习型 ICV（L-ICV）从示范中提取必要的任务信息，改善 LMM 中的 ICL 性能，通过与传统 ICL 和其他不可学习的 ICV 方法相比，实验结果显示 L-ICV 能够显著降低计算成本并提高 VQA 任务的准确性。
PDF17 days ago
奥林匹克竞技场：对超智能人工智能的多学科认知推理进行基准测试
人工智能的进化已经显著加速，主要得益于大型语言模型和大型多模态模型的进展，在问题解决和科学发现方面逐渐展现出与人类智力相当的潜在认知推理能力（即 AI4Science）。为了全面评估当前模型在认知推理能力方面的表现，我们引入了奥林匹克竞技场
PDF18 days ago
通过迭代实验编程实现大型多模态模型自动基准测试
自动化实验设计的框架 APEx 可以借助大型语言模型和预先指定的工具库生成一组实验，并逐步编制科学报告，以驱动测试过程和生成自然语言的结果。
PDF18 days ago
利用 LMM 激发的情感嵌入进行干扰图像检测
本研究通过利用大型多模型模型中编码的知识，提出了一种新的方法来解决干扰图像检测的任务。该方法通过提取通用语义描述和引发的情感来利用多模型模型中的知识，并利用 CLIP 的文本编码器获取文本嵌入。最后，将这些文本嵌入与相应的 CLIP 图像嵌
PDF18 days ago
LLARVA: 视觉动作指令调整增强机器人学习
通过使用纯指令调整的 Large Multimodal Models（LMMs），我们引入了 LLARVA 模型，该模型通过使用结构化提示统一了一系列机器人学习任务、场景和环境，并且利用预测中间的 2D 表达，即 “视觉迹线”，进一步对齐了
PDF19 days ago
MINT-1T：将开源多模态数据放大 10 倍：一万亿令牌的多模态数据集
介绍了迄今为止最广泛且多样化的开源多模态交错数据集 MINT-1T，其中包括十亿个文本标记和三十亿个图像，并分享了在该数据集上训练的大型多模态模型 LMMs 的性能与之前领先数据集 OBELICS 相媲美。
PDF19 days ago
比较视觉指导优化
比较两个图像的共性和差异（CaD）是一种基本的人类能力，它是高级视觉推理和解释的基础，对于生成详细的和与上下文相关的描述、执行比较分析、新颖性检测以及基于视觉数据做出明智决策至关重要。然而，令人惊讶的是，最先进的人类视觉智能模型 - 大型多
PDF23 days ago
Yo'LLaVA: 个性化语言和视觉助手
本文介绍了将个性化主题嵌入到一组潜在令牌中的 Yo'LLaVA 方法，通过少量示例图像有效地学习并更有效地编码视觉属性，用于实现 Large Multimodal Models（LMMs）与特定主题的对话。
PDF23 days ago
CMC-Bench：走向视觉信号压缩的新范式
超低比特率图像压缩是一个具有挑战性和需求量大的主题。这篇论文介绍了一个基于图像 - 文本 - 图像的语义级压缩方法，通过验证不同模型的协同性能，证明了在超低比特率下一些模型的组合已超过最先进的视觉信号编解码器，同时强调了在压缩任务中进一步优
PDF23 days ago
VideoGPT+: 图像和视频编码器的综合应用以提升视频理解能力
VideoGPT+ combines the benefits of image and video encoders to improve video understanding, achieving enhanced performan
PDF23 days ago
MobileAIBench: 用于设备上应用场景的 LLM 和 LMM 基准测试
通过使用较少参数和定量化等模型压缩技术，MobileAIBench 评估了多尺寸、定量化水平和任务，并在真实设备上测量延迟和资源消耗，旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察，加速移动 AI 研究和部署。
PDF24 days ago
基于概念的大规模多模态模型可解释性框架
借助大型多模态模型（LMMs），本文提出了一种新颖的解释框架，通过字典学习的方法应用于令牌的表示，准确地解释了多模态概念，并定量和定性地评估了学习到的概念在视觉和文本方面的相关性与质量。
PDF24 days ago
F-LMM: 冻结大规模多模态模型的基础
通过冻结已训练好的 Large Multimodal Models（LMMs）并结合人机对话，我们提出了一种简单且有效的设计 F-LMM，可以在完全保留 LMMs 的通话能力的同时，在指示物镜分割和全景叙述理解等测试中实现有竞争力的性能。
PDFa month ago