通过学习视觉契合来指导机器人探索,并使用基于 Transformer 的模型来学习 VQ-VAE 潜在嵌入空间中条件分布,从而展现模型的组合泛化能力。训练完成的契合模型可用于机器人操作策略学习中的目标抽样分布。
May, 2023
本文提出了一种基于 Markov 逻辑网络的方法,以视觉输入数据为基础来检测和提取物体的多个握取能力,通过多个语义属性的组合预测握取能力,通过学习典型的抓握图案使方法具有广泛的泛化能力,结果表明该方法在握取预测的新实例上具有良好的泛化能力。
Jun, 2019
本文提出了一种有效的注释方案,通过将目标无关的运动动作和抓握类型作为能力标签,并引入机械动作概念来描述两个物体之间的动作可能性,解决了现有数据集中的问题,并通过将此方案应用于 EPIC-KITCHENS 数据集来验证了模型的有效性。
Jun, 2022
基于自然语言指令的机会理解是本文的主题,通过 WorldAfford 框架中的创新性的机会推理链思维提示,使用 SAM 和 CLIP 定位与机会知识相关的对象,通过机会区域本地化模块确定对象的机会区域,在 LLMaFF 数据集上验证该框架表现出领先的状态,在多个物体上定位机会区域并在环境中无法完全匹配给定指令时提供替代方案。
May, 2024
本文描述了如何通过提取七个 sitcom 中人物与场景中的不同物体互动的场景,创建了一个规模超过 10K 的数据集,提出了一个两步走的方法用于预测新场景下的 affordances,包括使用一个 Varitional Autoencoder 来提取 affordances 的尺度和变形。研究结果显示,数据规模对于学习一个具有普适性和鲁棒性的 affordances 模型是至关重要的。
Apr, 2018
通过结合物体层面的可行先验和环境约束,我们提出了一个环境感知的可行性框架,该框架能够在考虑环境约束的情况下学习可行性,对于包含单个遮挡物和复杂遮挡物组合的场景具有良好的泛化效果。
Sep, 2023
借助神经网络建模物体状态,可以实现有效的物体功能信息提取并与传统语义学模型相结合,能够在基于图像的语言学习上取得更好的表现。
Jul, 2022
采用模块化神经网络体系结构,利用合成数据和模拟技术,通过低维潜在表示生成场景可用性,成功训练机械臂政策。同时,提出了一种数据集生成方法,可轻松推广到新任务、对象和环境,无需手动像素标记。
Mar, 2019
我们提出了一个模型,将对象、动作和效果统一为单一的潜在表示,在共享的感知空间中建立了被称为行动潜力空间的各种行为潜能。使用这个行动潜力空间,我们的系统能够在给定动作和对象时生成效果轨迹,并且能够在给定效果轨迹和对象时生成动作轨迹。
Apr, 2024
通过将可视管理学习和自我解释能力相结合,本研究提出了一种新的模型,能够有效地解决行为模糊性问题,并通过实验验证了其有效性。