multimodal tasks | BriefGPT

关键词multimodal tasks

搜索结果 - 43

INS-MMBench: 保险领域 LVLMs 性能综合评估的全面基准
本研究系统评估和总结了 LVLMs 在保险领域中的多模态任务，并提出了 INS-MMBench 作为第一个专门为保险领域量身定制的全面 benchmark，该评估不仅验证了我们的 benchmark 的有效性，还对当前 LVLMs 在保险领
PDF19 days ago
面向视觉 - 语言地理基础模型：一项调查
本文全面审查了视觉 - 语言地理基础模型（VLGFMs），总结和分析了该领域的最新发展，包括 VLGFMs 的背景、动机、核心技术和应用，以及未来研究方向的洞察、问题和讨论。
PDF19 days ago
诺米嵌入视觉：扩展潜在空间
描述了训练 nomic-embed-vision 的技术报告，它是一种高性能、开放代码、开放权重的图像嵌入模型，与 nomic-embed-text 共享相同的潜在空间。nomic-embed-vision 和 nomic-embed-te
PDFa month ago
隐式多模态对齐：关于将冻结的 LLM 泛化到多模态输入
大型语言模型（LLMs）对多模态任务表现出令人印象深刻的性能，然而，我们仍然缺乏对其成功的适当理解。本研究将冻结的 LLMs 公开显示为图像、视频、音频和文本输入，分析其内部表示以了解其在文本输入之外的泛化能力。
PDFa month ago
利用 GPT-4V (ision) 进行保险业的初步探索
通过对 GPT-4V 在保险领域的能力进行探索，我们发现它在保险相关任务中展现出了出色的能力，不仅全面理解了保险领域中的多模态内容，还具备丰富的保险场景知识。然而，它在详细风险评估和损失评估方面存在明显不足，并在图像理解中出现了幻觉，并对不
PDF3 months ago
HAMMR: 分层多模态反应智能代理程序用于通用 VQA
利用大型语言模型（LLMs）与外部专用工具（LLMs+tools）相结合是解决多模态任务（如视觉问答）的最新范式。本研究以统一的视角提出 VQA 问题，并在包括计数、空间推理、OCR-based 推理、视觉指向、外部知识等各种 VQA 任务
PDF3 months ago
MoPE: 通过混合提示专家实现参数高效且可扩展的多模态融合
通过分解原始提示，基于混合提示专家（MoPE）技术实现了适应性捕获数据集级别和实例级别特征，并借助多模态配对先验在每个实例上选择最有效的提示语，从而提高了多模态融合的表达能力和可扩展性。在专家路由方面引入了正则化项，导致不同专家专注于不同概
PDF4 months ago
基于上下文的多模态融合
通过上下文模态融合（CBMF）模型，结合了模态融合和数据分布对齐的方法，解决了多模态任务中数据分布不一致的问题，并且提供了一种经济高效的解决方案。
PDF4 months ago
INSTRAUG: 多模态指令微调的自动指令增强
通过自动指令增强方法名 INSTRAUG 的多模态任务中的精调大型语言模型（LLMs）可以在 12 个多模态任务中显著提高多模态大型语言模型（MLLMs）的对齐度，相当于多次扩大训练数据的好处。
PDF4 months ago
多模态大型语言模型的统一幻觉检测
多模态大语言模型（MLLMs）在全方位任务中取得了显著进展，但幻觉问题成为其关键问题之一。我们的研究扩展了对幻觉检测的调查范围，并提出了一个新颖的元评估基准（MHaluBench），以促进幻觉检测方法的发展。我们还推出了一个新颖的统一多模态
PDF5 months ago
生成多模态模型是上下文学习者
我们展示了一个 37 亿参数的生成式多模态模型 Emu2，通过在大规模多模态序列上训练，使模型具备了强大的多模态上下文学习能力，甚至能够解决需要实时推理的任务，如视觉提示和目标驱动生成。该模型在少样本情况下刷新了多个多模态理解任务的记录，并
PDF6 months ago
本地化符号化知识蒸馏用于视觉常识模型
使用局部可见的常识模型来训练视觉 - 语言模型以支持图像内部推理。
PDF7 months ago
大型语言模型的复合后门攻击
在这篇论文中，我们通过后门攻击的视角探索了大型语言模型的脆弱性。与现有的后门攻击不同，我们的组合后门攻击（CBA）将多个触发关键词分散在不同的提示组件中，这使得攻击更加隐蔽。我们的实验证明 CBA 在自然语言处理和多模态任务中都是有效的。我
PDF9 months ago
AnyMAL: 一种高效且可扩展的任意模态增强语言模型
我们提出了 Any-Modality Augmented Language Model (AnyMAL)，这是一个统一模型，可以对多样化的输入模态信号（文本、图像、视频、音频、IMU 运动传感器）进行推理，并生成文本回复。AnyMAL 继承
PDF9 months ago
图像、视频、音频和语言任务的统一模型
通过 UnIVAL 统一模型，可以有效地支持图像、文本、视频和音频等多种模态任务，并通过模型权重插值实现多模态模型融合，展示其在特定领域的分布外泛化能力。
PDFa year ago
SPAE：使用固定的 LLMs 进行多模态生成的语义金字塔自编码器
本文介绍了语义金字塔自编码器（SPAE），它使得具有非语言模式（如图像或视频）的被冻结的 LLMs 能够执行理解和生成任务。我们的方法通过在冻结的 PaLM 2 和 GPT 3.5 上进行多样化的图像理解和生成任务中上下文学习实验证明，是首
PDFa year ago
多模式大型语言模型综述
本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。
PDFa year ago
差异掩蔽：选择连续预训练中需掩蔽的内容
提出了一种名为 “Difference-Masking” 的自监督学习预训练方法，在多语种和多模态视频任务中超越了基准方法，验证了其在自然语言处理和视觉等领域的有效性。
PDFa year ago
i-Code Studio：一个可配置的、可组合的综合人工智能框架
文章提出了一个配置和可组合的框架 i-Code Studio，用于处理 AGI 中的多模态任务，并且成功地在影片文本检索、语音翻译、视觉问答等多个任务中实现了出色的结果。
PDFa year ago
LLM 可以自行阅读和生成 CXR 图像
本研究利用 VQ-GAN 框架将图像的潜在表示作为一种文本令牌，通过对预训练 LLM 进行微调，实现了无需结构改变或额外训练目标的图像生成，并将其应用于胸部 X-ray 图像和报告生成任务中。
PDFa year ago