- 无实例文本到点云定位与相对位置感知
提出了一种新的模型来解决现有方法的两个主要限制:依赖于地面实例作为输入以及忽视可能实例之间的相对位置,通过文本到点云的跨模态本地化任务,能够在一个城市规模的点云场景中根据少量自然语言指令来定位一个位置。实验结果表明,该模型在 KITTI36 - 基于纯文本语言模型的空间关系基础
文中通过提供对象的显式位置信息并进行适当训练,展示出仅文本的语言模型(Language Models)可以学习到类似 “左侧” 或 “下方” 等空间关系。通过对视觉空间推理(Visual Spatial Reasoning)数据集的一个口语 - 通过自动派生的数据集改进文本到图像生成中的显式空间关系
现有文献观察到当前的文本到图像系统不能准确反映物体之间的显式空间关系,我们假设这是因为训练这些模型的图像标题很少包含显式空间关系。为此,我们提出了一种自动方法,给定现有图像生成包含 14 种显式空间关系的合成标题。我们引入了 Spatial - AAAISA$^2$VP:空间对齐和自适应视觉提示
通过学习二维提示令牌映射来进行图像分类的细粒度提示,以模型化输入图像的空间关系和提高有效提示能力。
- 不在此处:基于蕴涵的轨迹相似度度量与位置隐私保护及更多领域应用
通过逻辑蕴涵引入一种利用事实的三重陈述来测量轨迹相似度的度量,提出了一种基于轨迹蕴涵度量的正式化方法,这种度量以空间关系陈述为基础,评估了 LSTM-TrajGAN 隐私保护轨迹生成模型在地理空间结构丰富性不考虑的情况下可能产生的潜在后果, - ProtoArgNet:具有超级原型和论证的可解释图像分类
这篇论文提出了 ProtoArgNet,这是一种新颖的可解释的深度神经网络架构,用于图像分类,例如 ProtoPNet 中的原型部分学习。ProtoArgNet 使用超级原型,将原型部分组合成单一的原型类表示。此外,ProtoArgNet - EMNLP视觉语言模型中的问题:探究其在空间推理方面的挑战
通过创造新的语义理解基准数据集,研究表明近期的视觉 - 语言模型在识别基本空间关系方面表现较差,这是由于常用的数据集如 VQAv2 中缺乏关于学习空间关系的可靠数据来源。
- 点云学习的分离式局部聚合
基于点云的本地聚合方法,将空间关系与特征融合解耦,通过点卷积和边缘最大池化进行聚合,实验结果表明其在性能和延迟上取得了显著进展。
- 多模态视觉语言模型中的基于实体的视觉空间推理
利用大规模视觉语言模型评估其在不同视觉推理任务中的性能,特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名,结合物体及其位置的核心语义来计算空间子句的最终评分,并比较不同视觉语言模型在空间关系推理 - 关于少样本动作识别中空间关系的重要性
通过整合空间关系和时间信息,本文提出了一种新型的少样本动作识别方法 Spatial Alignment Cross Transformer (SA-CT),并利用预训练模型进一步提升性能。
- 评估大型语言模型在几何和空间关系的文本描述中的有效性
研究使用大型语言模型(LLMs)对几何形状及其空间关系进行表示的能力,并使用 GPT-2 和 BERT 等 LLMs 对几何形状的文本(WKT)格式进行编码,然后将其嵌入分类器和回归器中评估 LLMs 生成的嵌入表示对几何属性的效果。实验证 - 空间知识图谱线性建筑模式识别
本文提出了一种基于知识图谱的建筑线性排布模式识别方法,并在包括 1289 座建筑的数据集上进行了实验,结果显示该方法能够达到与现有方法相同的精度和召回率,同时提高了 5.98 倍的识别效率。
- 用神经描述符场进行 SE(3)等变关系重排
本文提出了一种基于点云观测数据,实现元素实例任意姿态下空间关系任务的方法,该方法通过三个步骤解决了元素重排列问题:指定本地协调对象部件的一致坐标系;在新的对象实例上确定该坐标系的位置和方向;实施调整坐标系以达到所需呈现的目的。关键技术难题得 - 一种分类和生成相结合的混合模型用于空间关系提取
本研究提出了一种基于生成和分类混合的新型模型 HMCGR 来从文本中提取空间关系,并应用了反射性评估机制来进一步提高准确性。实验结果表明,HMCGR 显著优于现有的基准模型。
- 一种令人尴尬的但对嵌套命名实体识别非常强的基准方法
本文提出使用卷积神经网络来建模得分矩阵中的空间关系以解决嵌套的命名实体识别问题,实验证明相较于最近提出的同类方法,本文提出的方法更为优秀,并且发现不同的论文使用不同的句子标记化会对结果产生影响,因此提供一种易于使用的预处理脚本以便于日后比较 - IJCAI针对相对方向基于多任务学习方式构建的数据集:适合于我并不适合于你
本文提出了通过端到端神经网络来解决相对方向的归一化问题,并构建了 GRiD-3D 数据集以支持此研究。实验证明,当问题刺激相对定向问题的次任务时,回答相对定向的问题是可行的。
- ACL视觉空间推理
本研究提出 Visual Spatial Reasoning(VSR)数据集,这是包含超过 10k 已标注的英文自然文本图像对和 66 种空间关系的数据集,研究表明当前视觉语言模型只能达到约 70%的准确率,无法识别有关物体朝向的关系。
- AAAIStepGame:文本中鲁棒型多跳空间推理的新基准
本文提出了一个新的多跳空间推理文本问答数据集 StepGame,并利用基于张量积的记忆增强神经网络(TP-MANN)解决空间推理任务,得到了比 bAbI 数据集更好的性能和稳健性能。
- 将常识推理和知识获取结合,为机器人的深度学习提供指导
该论文提出了一种基于认知系统的深度网络模型,以探索深度网络模型内部表示和推理机制的知识表示、推理和学习挑战,并通过使用空间关系的接地和递增式的学习,以及基于非单调逻辑推理和基础常识域知识的决策,实现对场景中物品遮挡和稳定性的推理,通过识别与 - ICCVPano-AVQA: 360° 视频上基于感知的音视问题回答
本文提出了 Pano-AVQA 基准测试用于评估全景视频中音频 - 视觉关系和球形空间关系的语义理解。使用在线获取的 5.4K 个视频剪辑,收集了两种类型的新型问题 - 答案对。通过球形空间嵌入和多模态训练目标,使用多个基于 Transfo