multimodal understanding | BriefGPT

关键词multimodal understanding

搜索结果 - 18

InsightSee：提升多智能体视觉语言模型以增强视觉理解力
InsightSee 是一个多智能体框架，用于增强视觉语义模型在处理复杂的视觉理解场景中的解释能力，通过改进视觉信息处理的过程，提高了特定视觉任务的性能，并在 6 个基准测试中超越了现有算法，实现了多模态理解的重大进展。
PDFa month ago
GPT-4V 的进展：通过开源套件缩小与商业多模型的差距
InternVL 1.5 是一种开源的多模态大型语言模型，通过引入强大的视觉编码器、动态高分辨率和高质量双语数据集三个简单改进，提升了多模态理解的能力，在 OCR 和中文相关任务中达到与传统型和专有模型相竞争的性能。
PDF2 months ago
MMT-Bench：一个综合评估大型视觉语言模型向多任务人工通用智能发展的多模态基准
该研究介绍了 MMT-Bench，这是一个综合性评估基准，旨在评估大规模视觉 - 语言模型（LVLM）在多种跨领域的多模态任务上的能力，并促进下一代通用多模态智能基础模型的发展。
PDF2 months ago
Heron-Bench: 评估日语视觉语言模型的基准
为了解决日语 VLMs（Vision Language Models）的开发和评估中存在的问题，我们引入了一个新的基准测试集，日本 Heron-Bench，用于评估 VLMs 的日语能力。我们还提供了一个基准日语 VLM，它使用了经过日语视
PDF3 months ago
AAAI大型语言模型如何促进更好的社交辅助人机交互：简要调查
在本文中，我们对 LLMs 在 SAR 技术中的应用进行了简要调查，并讨论了将 LLMs 应用于 SAR 的三个主要技术挑战（自然语言对话、多模态理解和 LLMs 作为机器人策略）的潜力和风险。
PDF3 months ago
Design2Code: 前端工程自动化的实现程度如何？
通过综合评估，我们发现 GPT-4V 在将视觉设计转换为代码实现的任务中表现最佳，其生成的网页在视觉外观和内容方面可以替代原始参考网页的 49％，并且在 64％的情况下被认为比原始参考网页更好。
PDF4 months ago
InternLM-XComposer2：掌握视觉语言大型模型中的自由文本 - 图像组合和理解
InternLM-XComposer2 是一种先进的视觉 - 语言模型，擅长自由形式的文本 - 图像组合和理解，在从轮廓、详细的文本规范和参考图像等多样输入中巧妙地创建交错的文本 - 图像内容，实现了高度可定制的内容创作。InternLM-
PDF5 months ago
NExT-Chat：一种聊天、检测和分割的 LMM
我们引入一种名为 pixel2emb 方法的新范式，通过该方法可以在多模态对话中使用不同的位置格式，提高具有有限资源的场景下对象定位的性能，并训练一个名为 NExT-Chat 的多任务大型多模态模型，展示其处理视觉对齐、区域描述和基于对齐的
PDF8 months ago
语言模型能在 YouTube 短视频中大笑吗？
使用 GPT-3.5 过滤与嘲笑相关的语言与视觉元素，通过时间戳和文字解释为每个视频注释，以提高大型语言模型对视频幽默的理解。
PDF8 months ago
简化多模态生成：当扩散模型与 LLMs 相遇
EasyGen 是一个高效的模型，通过结合扩散模型和大型语言模型（LLMs）的能力，来提高多模态理解和生成。与现有的多模态模型不同，EasyGen 建立在一种名为 BiDiffuser 的双向条件扩散模型的基础上，推动了模态之间更有效的交互
PDF9 months ago
UniDoc：一种用于同时文本检测、识别、标定和理解的通用大型多模态模型
在大型语言模型（LLMs）时代，我们介绍了一种名为 UniDoc 的新型多模态模型，该模型具备文本检测和识别能力，并通过任务之间的有益互动来提升整体性能。利用大规模指令遵循数据集进行统一的多模态指导调优，实验结果表明 UniDoc 在多个挑
PDF10 months ago
大规模预训练模型是否可帮助视觉模型完成感知任务？
本文提出一种新的学习范式，通过利用提前训练的大型模型来增强传统视觉模型的表示能力，并在多个视觉模型中验证了该算法的有效性，可以提高图像分类等任务的准确性。
PDFa year ago
VALOR: 视听语言全感知预训练模型和数据集
本文提出了一种用于多模态理解和生成的 Vision-Audio-Language Omni-peRception 预训练模型 (VALOR)，该模型与先前广泛研究的视觉语言预训练模型不同，以端对端的方式共同建模视觉、音频和语言之间的关系，包
PDFa year ago
IRFL：修辞语言的图像识别
本研究提出了 “形象化语言图像识别” 数据集，探讨了视觉和语言模型理解多模态形象化语言的难点，并借助基准任务和基线模型初步研究了这一问题。结果表明，所有的模型在多模态形象化语言理解上都不如人类。该数据集和基准任务将促进模型更好地理解形象化语
PDFa year ago
多模式讲座演示文稿数据集：理解教育幻灯片中的多模式性
介绍了一个为了测试机器学习模型在多模态教育内容理解方面表现的新的数据集 ——Multimodal Lecture Presentations 数据集，并且提出了两个任务 —— 解释和说明教育内容，其中前者实现语音识别，后者实现视觉内容合成。
PDF2 years ago
CVPR在动态音视频场景中学习回答问题
本文研究了 Audio-Visual Question Answering（AVQA）任务，提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题，结果表明我们的方法优
PDF2 years ago
视频中的时序句子地位划分：调查与未来方向
该论文调查了自然语言视频定位 (TSGV) 的基本概念和当前研究状况，并讨论了未来的研究方向，着重介绍了 TSGV 的多模态理解和交互技术，构建了 TSGV 技术的分类法，讨论了当前研究中存在的问题并分享了有前途的研究方向。
PDF2 years ago
CVPRVIOLIN：一个大规模的视频和语言推理数据集
本文介绍了一个新的任务 —— 视频与语言推理，用于联合多模态理解视频和文本，提出了一个名为 “Violin” 的大规模数据集并对其进行了分析，并对该任务进行了广泛评估。
PDF4 years ago