visual scene | BriefGPT - AI 论文速递

关键词visual scene

搜索结果 - 14

视网膜视觉变换器 (RetinaViT): 将缩放图块引入视觉变换器
视网膜视觉转换器（RetinaViT）是从人类视觉系统中汲取灵感，将缩小版本的输入图像的补丁添加到第一个 Transformer 编码器层的输入中。实验结果表明，当在 ImageNet-1K 数据集上进行训练时，RetinaViT 相比原始
PDF3 months ago
KITE: 基于关键点条件的语义操作策略
提出了一个基于 Keypoints + Instructions to Execution (KITE) 的两步框架用于实现语义操作，首先通过 2D 图像关键点将输入指令与视觉场景关联，然后通过学习到的关键点条件技能执行指令，其中 keyp
PDFa year ago
CVPR混合声音源的本地化
我们提出了一种同时定位视觉场景中多个声源的方法，使用 Jabri 等人的对比随机漫步所启发的模型，并结合了视听相似性度量，能够较好地解决声音混合的分离与声音和视觉信号的联合问题，实验结果表明该模型在定位多个声源方面优于其他自监督方法。
PDF2 years ago
SAVi++：面向真实世界视频的端到端物体中心学习
SAVi++ 是一种基于深度信号的物体中心视频模型，可以通过对复杂的动态场景进行对象分割和跟踪。
PDF2 years ago
一种基于 Rational Speech Act 框架的指称表达：概率方法
利用 RSA 框架与深度学习方法相结合，在多步骤过程中生成更好的、可解释的表述，在复杂的视觉场景中进行实验，比较我们的方法与其他端到端深度学习方法以及 RSA 变体的表现，结果表明，我们的方法在人类理解方面优于类似 RSA 方法，而在有限数
PDF2 years ago
ECCV图像和点云的语言基础的自底向上和自顶向下检测变压器
提出了一种语言引导的物体检测模型，使用底部和顶部的启发式信息来实现参考指称地面实体，同时获得了在流行的 3D 语言基础基准测试中的新的最先进的性能表现，与以前的技术相比显著提高。
PDF3 years ago
AAAI从多个未指明的视点无监督学习构造场景表示
提出了一种基于深度生成模型的方法，通过将潜在的场景表示分为与视角无关和视角相关部分来学习多个未指定视角的组合场景表示，并采用神经网络来迭代集成不同视角中包含的信息。实验表明该方法能够有效地从多个未指定视角学习.
PDF3 years ago
基于距离变换回归的空间感知深层语义分割
通过在标签掩码上计算距离变换，训练一个全卷积神经网络来同时学习分类和距离回归，可以有效地应用于视觉场景中的语义分割并有效解决边界模糊和分割失真的问题。
PDF5 years ago
基于语言条件的图网络用于关系推理
本文提出了一种基于场景上下文化表征的图网络模型，通过文本输入的迭代信息传递来构建物体的语境化表达，以支持关系推理，实验结果表明该方法有效地提高了多项任务和数据集的表现。
PDF5 years ago
CVPR视频中的对象指称：基于语言和人类凝视
本研究提出了一种利用视频中物体的运动特征、人眼注视和时空语境等信息进行对象指称的新型神经网络模型，并使用一个包含 30,000 个对象的测试数据集验证了该模型的有效性。
PDF6 years ago
ACL从视觉中学习基数和量词的含义：精确或模糊
本研究通过模型的方式研究了视觉场景中的精确基数和自然语言量词的学习及认知机制。结果表明，使用模糊测度的模型在学习量词方面较为有效，而提供了数字信息则更有助于准确基数的学习。
PDF7 years ago
CVPR迭代消息传递的场景图生成
研究使用视觉图像中的基于场景图谱的结构化表示，通过端到端模型建模图像中对象之间的关系，通过消息传递技术可以更好预测对象及其关系，实验表明该模型显著优于以前的方法。
PDF7 years ago
phi-LSTM：一种面向短语的分层 LSTM 图像字幕生成模型
本文提出了一种基于短期长期记忆（LSTM）和卷积神经网络（CNN）的基于短语层次结构的模型，可用于生成图像描述。该模型以序列化的短语和单词组合而不是通常的序列化单词作为输入，分别学习生成图像相关的名词短语，然后从语料库中的短语和其他单词生成
PDF8 years ago
认知机器人的深度功能场景理解：周边区域我能做什么？
本研究提出了一种基于深度学习的检测流程，用于在室内场景中识别功能区域，通过比较两个数据集，证明了该模型具有较好的泛化性能。
PDF8 years ago