textual cues | BriefGPT - AI 论文速递

关键词textual cues

搜索结果 - 7

CVPRDocSynthv2：面向文档生成的实用自回归建模
通过开发一种简单且有效的自回归结构模型，本文在探索综合文档生成，即包括布局和内容的文档生成的更复杂挑战方面提出了名为 DocSynthv2 的新方法，通过关注文档内结构元素与文本内容之间的关系，我们旨在生成连贯且与上下文相关的文档，不依赖于
PDF24 days ago
COLING多模态跨文档事件共指消解的线性语义转移和混合模态集成
提出了一种融合视觉和文本线性映射的多模态跨文档事件共指解析方法，通过对事件中心图像的集成，对核心指称进行融合模型、线性映射和集合方法进行处理，实现了对事件共指的跨模态线性映射，为核心指称解析领域提供了多模态信息的实用性和需要更多多模态资源的
PDF3 months ago
SyCoCa: 对称化的关注屏蔽对齐的对比式字幕生成器
当前视觉语言模型研究的基础主题是语言和视觉之间的多模态对齐。对比式字幕生成器 (CoCa) 是一种代表性方法，它将对比语言 - 图像预训练 (CLIP) 和图像字幕 (IC) 集成到统一框架中，取得了令人印象深刻的结果。本文提出了一种称为对
PDF6 months ago
舞动的阿凡达：基于姿势和文本引导的人体动作视频合成与图像扩散模型
提出了一种名为 “Dancing Avatar” 的方法，通过文本和姿势驱动，利用训练良好的 T2I 扩散模型生成逐帧人体运动视频，同时保持上下文相关性、人物外观一致性和背景连续性，实现生成具有出色质量的人类视频。
PDFa year ago
用于开放式语义分割的多模态原型
本文提出了一种称为开放式语义分割（O3S）的统一框架，在视觉示例和文本名称中学习已见和未见的语义。我们的流程通过首先进行单模自我增强和聚合，然后进行多模态补充融合来提取用于分割任务的多模态原型。
PDFa year ago
CVPR利用胶囊网络进行弱监督的视觉问答
本研究提出了一种视觉胶囊模块，并使用基于查询的胶囊特征选择机制，在仅使用 VQA 任务的情况下弱监督地培训相关视觉实体的基础上，演示了将该模块集成到现有的 VQA 系统中如何显著提高其性能，并在 CLEVR-Answers 基准测试和 GQ
PDF3 years ago
CVPR利用场景文本理解广告
提出一个并不仅使用视觉特征，还使用从内嵌文本中提取的文本线索实现广告图像自动分类的框架，利用广告图像所含的有意义的文本内容，在分类任务中提供有益的语义解释，并使用现成组件开发框架来展示文本线索在语义分类任务中的有效性。
PDF6 years ago