vision and language | BriefGPT

关键词vision and language

搜索结果 - 14

跨模态协调：在多元输入模态中的协同
提出两种不同的方法来解决跨模态检索的问题，一种基于 CLIP 对任意数量的输入模式进行扩展，而第二种方法通过回归跨模态相似性来解决协调问题，并在多个数据集上进行实验证明其简单有效，并允许以新的方式解决检索问题。
PDF5 months ago
动态离散视觉标记的统一语言 - 视觉预训练
最近，大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言，突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为 LLM 可以阅读的一系列离散
PDF10 months ago
通过文本理解视频场景：来自基于文本的视频问答的洞察
研究人员广泛研究了视觉和语言领域，发现理解场景需要理解视觉和文字内容，特别是在视频中理解文字对于回答问题非常重要。本文集中探索了两个最近推出的数据集，NewsVideoQA 和 M4-ViteVQA，这两个数据集旨在通过文字内容进行视频问答
PDF10 months ago
ICCV通过时空事件图解释视觉与语言
人工智能在填补视觉与语言之间的差距方面取得了重大进展，但我们仍然远未从语言的角度理解、解释和显式地控制视觉内容，因为两个领域之间仍然缺乏一个共同的可解释表示。在本研究中，我们针对这个限制提出了 “时空事件图（GEST）”，通过它我们可以表示
PDF10 months ago
密集对齐字幕（DAC）促进视觉语言模型中的组合推理
本文探索了影响视觉语言模型组合推理性能的两个因素：对齐图像 - 文本数据集的质量和文本的密度。通过在 CC3M 数据集上 fine-tuning CLIP 模型，我们证明了自动处理这些影响因素的方法可以使模型的组合推理性能显著提高，基于基线
PDFa year ago
LaFTer：使用语言和未标记图像集合进行零样本分类器的无标签调整
本文介绍了一种使用未标记的图像集合和大型语言模型自动生成标签，并通过这种非监督方式实现了零样本分类器性能的显著提高的方法。与传统的监督训练方法相比，在多个数据集上的绝对提升高达 11.7％（平均 3.8％），而与一些少样本提示基线相比的平均
PDFa year ago
从非对称角度用混合多模态方法重新思考多模态内容审核
本文介绍了一种新的混合多模式内容调节模型，AM3，用于针对多模式和单模式内容调节任务。我们提出了一种新的跨模态对比损失方法来学习仅出现在多模态内容中的独特知识，并证明了该方法在多模态和单模态内容调节基准测试中优于所有现有的最先进方法。
PDFa year ago
使用场景图将结构化表示法加入预训练视觉与语言模型
研究表明，为了改善 VL 模型的结构理解能力，场景图等结构化标注数据虽然耗时、昂贵和繁琐，但只需要小型数据集，就足以使用专用的模型架构和新的训练范式来提高 VL 模型的表现，通过直接使用场景图标签监督图像和文本编码器，以及添加专门的自适应
PDFa year ago
MultiModal-GPT: 一个视觉语言模型，用于人类对话
该研究提出了名为 MultiModal-GPT 的视觉与语言模型，可以利用证据和语言数据对多模式指令进行调整，为模型的不断对话提供支持，同时提出了联合培训的观点，并通过各种演示展示了 MultiModal-GPT 的连续对话能力。
PDFa year ago
IPA-CLIP: 将音位预先设定集成到视觉和语言预先训练中
本研究介绍了一种提取音素信息的方法并将其加入 Vision and Language 预训练模型 CLIP 中，以加强 CLIP 处理未知词汇的能力。评估显示，该模型在处理多模态检索任务时具有较好效果，并与人类发音相似性判断有较高相关性。
PDFa year ago
REST：生成式动作识别的检索与自训练
本文提出使用 REST 框架，在不使用任何动作特定标签的情况下，通过生成的方式将生成模型适应于影片 / 动作，并使用基于 CLIP 的检索方法来训练模型，旨在实现训练一个生成模型，生成一个动画特定的自由格式标题来描述图像 / 动画识别，以解
PDF2 years ago
通过输入空间转换利用 BERT 进行多模态目标情感分类
本文提出了一种两路模型的方法，使用物体感知变压器将图片翻译为文本表示并构造辅助句以提供多模态的信息给语言模型，同时对推特数据进行情感分析，达到了最佳效果。
PDF3 years ago
AAAIUnicoder-VL: 一个视觉语言通用编码器，通过交叉模态预训练实现
通过联合学习视觉和语言的表示，Unicoder-VL 提供了一个通用编码器，采用多任务交叉训练，包括掩码语言建模，掩码对象分类和视觉语言匹配等。在大规模图像字幕预训练之后，Unicoder-VL 可用于基于字幕的图像文本检索和视觉常识推理，
PDF5 years ago
基于自然语言的目标描述和检索
本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法，并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明，使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题，并在推理时间非常快的同时，提供了对
PDF6 years ago