以交互为预训练的地面功能表示学习
本文提出了一种基于 Markov 逻辑网络的方法,以视觉输入数据为基础来检测和提取物体的多个握取能力,通过多个语义属性的组合预测握取能力,通过学习典型的抓握图案使方法具有广泛的泛化能力,结果表明该方法在握取预测的新实例上具有良好的泛化能力。
Jun, 2019
通过利用经过预训练的大规模视觉语言模型中的丰富世界、抽象和人 - 物体相互作用知识,我们提出的模型在自然环境中的对象可承受性接地任务上展示出明显的性能提升,我们进一步证明它可以对训练过程中未见过的随机互联网图像中的对象进行可承受性接地。
Jan, 2024
通过深度学习方法研究自然语言处理,通过训练紧密连接的编码器 / 解码器,在传统的指示语言环境和对比学习环境中开发了一个专用于视觉数据表示的私有语言,并且通过神经机器翻译和随机森林分类的分类层将符号表示转化为类别标签。通过两个实验,旨在进行物体识别和动作识别,研究了从真实图像中生成的草图以及从 3D 运动捕获系统生成的 2D 轨迹,通过梯度加权类激活映射(Grad-CAM)方法和 t-SNE 方法解释了学习到的符号和嵌入。
Sep, 2023
基于自然语言指令的机会理解是本文的主题,通过 WorldAfford 框架中的创新性的机会推理链思维提示,使用 SAM 和 CLIP 定位与机会知识相关的对象,通过机会区域本地化模块确定对象的机会区域,在 LLMaFF 数据集上验证该框架表现出领先的状态,在多个物体上定位机会区域并在环境中无法完全匹配给定指令时提供替代方案。
May, 2024
通过学习视觉契合来指导机器人探索,并使用基于 Transformer 的模型来学习 VQ-VAE 潜在嵌入空间中条件分布,从而展现模型的组合泛化能力。训练完成的契合模型可用于机器人操作策略学习中的目标抽样分布。
May, 2023
本文从计算认知语言学的角度探讨了多模态语义表示中的基础问题,注释和分析了五个感知属性:可操作性、感知显著性、物体数量、凝视引导和生态学生态位关联。我们对来自 Flickr30k 数据集的选定图像进行了探究性分析和统计建模,发现了在构建过程中,观看者将情境意义和可操作性与多模态语义统合到一起,而这些因素被巩固为包含视觉和文本元素的图像文字数据集中的影像字幕。本研究显示情境意义和可操作性基础对于理解系统生成适当回应至关重要,并有潜力推动人类对不同情境下的构造的理解。
May, 2023
通过研究预训练语言模型和预训练视觉 - 语言模型对对象适用性的认知,我们发现预训练语言模型在处理不常见的对象适用性时存在有限的推理能力,并且预训练视觉 - 语言模型不一定能有效捕捉对象适用性。通过少样本微调,我们展示了在预训练语言模型和预训练视觉 - 语言模型中改进对象适用性知识的方法。
Feb, 2024
本文介绍了一种针对开放式交互集的类不可知对象的功能类别识别方法,该方法通过无监督学习认知对象互动之间的相似性,从而诱导对象功能群簇,为构建活动图提出了一种新的深度感知定性空间表示方法,通过这种方法可以获得相似功能的物体组。实验证明,该方法即使在杂乱无章的场景中也能学习到高度 V-measure 的对象功能群簇,并且能够有效地处理对象遮挡,并且不强制施加任何对象或场景约束。
Mar, 2023
本文提出了一种基于视觉语言感知模型的新方法,可以在真实世界中从非结构化、离线、无需重置的数据中高效地学习通用的、以语言为条件的机器人技能,实验表明该方法配合 LLMS 可以在真实世界中完成长期、多层次的任务,并比以往方法少使用一个数量级的数据。
Oct, 2022