multimodal model | BriefGPT

关键词multimodal model

搜索结果 - 45

生成式视觉指导调整
使用机器生成的指令跟随数据，通过集成对生成和图像编辑任务的支持，我们改进了一个大型多模态模型的零样本能力。我们构建了一个新的多模态指令跟随数据集，并使用 GPT-4V 和现有的图像生成和编辑数据集。通过三种类型的大型预训练模型的指令微调策略
PDF15 days ago
跨语言认知洞察：提升多模式面试分析
我们提出了一种多模态模型，能够预测轻度认知障碍和认知得分，通过对 TAUKADIAL 数据集进行评估，提取音频和文本特征，并将其结合成多模态架构以实现强大而广泛的结果。
PDF21 days ago
BTS：基于元数据辅助的呼吸音分类的文本和声音模态的桥接
通过利用呼吸音样本的元数据，我们引入了一个文本 - 音频多模态模型来改进呼吸音分类的性能，并且在治疗临床环境中部分元数据不可用的情况下也进行了研究验证。
PDF22 days ago
在多模态学习中利用视觉令牌扩展文本背景
使用 Visualized In-Context Text Processing (VisInContext) 技术能够有效地增加多模态大型语言模型中的上下文文本长度，减少 GPU 内存使用和浮点运算，同时在文档理解任务和顺序文档检索中展示
PDFa month ago
解码抽象艺术中的情感：CLIP 在识别颜色 - 情感关联中的认知合理性
本研究调查了预训练的多模态模型 CLIP 在识别抽象视觉艺术所引发的情感方面的认知合理性。我们使用包含带有情感标签和人类注释员提供的文本证明的图像的数据集进行研究。我们对证明进行语言分析，对图像和证明进行零 - shot 情感分类，并应用基
PDF2 months ago
来自语言模型的姿态先验
我们提出了一种零射类实验中的姿势优化方法，可在估计人体的 3D 姿势时强制执行准确的物理接触约束。我们的主要见解是，由于语言通常用于描述物理交互，大型预训练的基于文本的模型可以作为姿势估计的先验知识。因此，我们可以利用这一见解，通过将大型多
PDF2 months ago
自动驾驶场景中基于语言增强的潜在表示的异常检测
利用多模态模型 CLIP 编码的图像和文本表示的余弦相似度作为一种新的表示，以改善用于视觉异常检测的潜在编码的透明性和可控性。通过与仅能产生用户无意义的潜在表示的现有预训练编码器进行比较，我们的实验表明，基于语言的潜在表示比传统视觉编码器的
PDF2 months ago
引入路由功能以低秩瓶颈优化视觉语言参数高效微调
针对视觉 - 语言（VL）任务的参数高效微调方法，使用名为路由函数的操作在低秩瓶颈中增强了 VL 对齐，极大地改善了原始 PEFT 方法在各种 VL PEFT 设置中的表现，包括 20% 的提升（在 VQAv2 上）和 30% 的提升（在
PDF4 months ago
TextMonkey: 一个无需 OCR 的大型多模态模型用于理解文档
我们介绍了 TextMonkey，一个大型多模态模型（LMM），该模型针对以文本为中心的任务，包括文档问题回答（DocVQA）和场景文本分析。通过采用零初始化的 Shifted Window Attention，我们在更高的输入分辨率下实现
PDF4 months ago
基于大语言模型的通用实体链接
我们提出了一种新的方法来从长描述中密集地连接视觉实体，利用大型多模态模型提取语义名词，利用无类别分割模型生成实体级分割，采用多模态特征融合模块将每个语义名词与其对应的分割蒙版关联。此方法利用颜色映射对实体分割蒙版进行编码，使得细粒度预测能够
PDF5 months ago
利用大型多模式模型解释生成模型的潜在表示
我们提出了一个框架，使用大型多模态模型全面解释生成模型中的每个潜在因子，并量化评估我们生成解释的不确定性，从而学习不同生成模型对解释的解缠效果，最后讨论最先进的大型多模态模型的解释能力和局限性。
PDF5 months ago
地理解码器：增强多模态地图理解
GeoDecoder 是一个专门为处理地理空间信息的多模态模型，通过利用 GaoDe Amap 作为底图，该模型具有对道路、建筑形状、相对位置和其他属性的重要细节的隐含理解，同时能够接受各种上下文文本和问题提示，并生成符合 GPT 风格的文
PDF5 months ago
WebVoyager: 使用大型多模态模型构建端到端网络代理
我们介绍了 WebVoyager，这是一种创新的大型多模态模型（LMM）驱动的网络代理，可以通过与真实网站的交互来完成用户指令的端到端。此外，我们提出了一种新的网络代理评估协议，以解决开放式网络代理任务的自动评估挑战，利用了 GPT-4V
PDF5 months ago
通向通用多模型的视觉指导调整：一项调查
本文系统综述了视觉指令调整方法，包括计算机视觉任务范式、视觉指令调整的发展、常用的网络架构、评估设置和任务、常用的数据集、已有的视觉指令调整方法的分类和对比、挑战和未来研究方向。
PDF6 months ago
南非社交媒体环境中的多模态错误信息检测
本研究旨在调查虚假信息检测模型在不同背景环境下的知识可转移性，为南非社交媒体环境提供一种多模态虚假信息检测模型，并引入南非虚假信息数据集。结果表明，将南非样本用于模型训练可以提高模型性能，并且多模态模型比文本和视觉单模态模型保留更多知识。研
PDF7 months ago
采用隐私合规特征进行野外多模态群体情绪识别
本研究在 EmotiW Challenge 2023 中探索了符合隐私规范的野外群体情绪识别。提出的多模态模型通过视频和音频分支以及跨模态注意力实现，使用全局特征而避免使用个体特征，仅依靠分布在视频中的 5 个均匀帧即可达到相当高的准确率。
PDF7 months ago
构建大型多模态模型理解任意视觉提示
该研究介绍了一种新颖的多模态模型，可以解码任意视觉提示，通过在 RGB 图像上直接叠加视觉标记的方式，实现了对特定区域的理解，在区域理解任务上取得了最先进的性能，并提出了 ViP-Bench，一个综合评估模型在理解多个维度上的视觉提示能力的
PDF7 months ago
DocPedia: 在频域释放大型多模态模型的能力，实现多功能文档理解
DocPedia 是一种新型的大型多模态模型，用于 OCR-free 文档理解，能够处理高分辨率图像。通过在频域而不是像素空间中直接处理视觉输入，DocPedia 能够利用有限数量的视觉标记捕捉更多的视觉和文本信息。通过开发双阶段训练策略和
PDF7 months ago
看得见才能相信：促进 GPT-4V 实现更好的视觉指导调优
通过使用来自 LVIS 的图像激励强大的 GPT-4V 生成 220K 个视觉对齐和上下文感知指令，我们推出了一个细粒度的视觉指令数据集 LVIS-Instruct4V，并通过实验验证和案例研究证明，高质量的视觉指令数据可以显著提高现有最先
PDF8 months ago
ETDPC：电子学位论文页分类的多模态框架
提出了一种基于两流多模型和交叉注意网络的电子学位论文页面分类方法，该方法在数据效率方面取得了较好的效果，并在 13 个类别中的 9 个类别上取得了 0.84-0.96 的 F1 值，优于现有模型。
PDF8 months ago