multimodal modeling | BriefGPT

关键词multimodal modeling

搜索结果 - 4

FlowVQA：将流程图用于视觉问答中的多模态逻辑映射
FlowVQA 是一个新颖的基准测试，旨在评估多模态语言模型在使用流程图作为视觉上下文进行推理的能力，其组成包括来自三个不同内容来源的 2,272 张经过精心生成和人工验证的流程图像以及 22,413 个多样化的问答对，以测试一系列推理任务
PDF7 days ago
ACL推特上影响者内容的多模态分析
本研究介绍了一个新的推特数据集，并使用文本和视觉信息实验了多模型预测方法，表明我们提出的交互注意力方法在检测商业推广内容方面优于现有的多模态模型。我们还对模型的优势和局限性进行了彻底分析，结果显示多模态建模有助于识别商业帖子，减少误报，并捕
PDF10 months ago
编码器 - 解码器多模态发言人变化检测
本研究提出了一种基于多模态模型的演讲者变换检测方法，它不仅利用音频，还使用文本信息进行检测，并且在模态融合和编码器 - 解码器体系结构等方面进行了改进，实验结果表明该方法在准确率上取得了最好的效果。
PDFa year ago
WIT: 基于维基百科的图像文本数据集，用于多模态多语言机器学习
本文介绍了 Wikipedia-based Image Text（WIT）数据集，该数据集是由不同语言构成的 37.6 百万个实体丰富的图像文本示例组成，可用于多模态模型的预训练，如应用于图像文本检索等下游任务。WIT 数据集有四个主要的优
PDF3 years ago