认知机器人的常识场景语义:走向基于视觉 - 运动相互作用的根源
本篇研究介绍了一种基于视觉语言理解模型的单词语义组合来生成复杂指代表达式的理论,介绍了其在空间指代表达式中的应用及在语义理解中对视觉语境的影响研究。
Jun, 2011
提出了一种使用大型语言模型中通用的常识知识为机器人场景中的物品进行标记,该算法不需要任务特定的预训练,并且可以泛化到任意房间和物品标签 —— 这是机器人场景理解算法中非常理想的特征。该算法基于由现代空间感知系统产生的 3D 场景图,并希望将为机器人提供更具有可推广性和可扩展性的高级 3D 场景理解铺平道路。
Jun, 2022
本文提出了一个计算模型来处理在机器人交互设置中发生的动态空间关系,并演示了该模型将计算认知语义和普通空间表征以及推理的两个研究领域相结合的效果。
Jul, 2016
本文认为模拟平台使得新型的具身空间推理得以实现,它由物体和事件语义的形式化模型所促进,这使得开放式、实时环境的连续定量搜索空间变得易处理。通过示例,本文说明了一种基于语义的人工智能系统如何利用游戏引擎提供的精确数值信息来执行关于物体和事件的定性推理、从数据中学习新概念、与人类进行交流以提高其模型并展示其理解。本文认为模拟环境,特别是游戏引擎,整合了许多不同的 “模拟” 概念和许多不同的技术,为开发机器和人类智能方面的人工智能系统和工具提供了高效的平台.
Feb, 2019
本研究介绍了一种基于模块化方法的场景感知机器人视觉定位框架,该方法通过训练每个模块来独立解析实体、属性和空间关系,并结合领域自适应技术解决常见问题。实验表明,该框架与 Sim-To-Real 实现的视觉识别方法相结合,能够提供一种数据高效、稳健且易于理解的视觉定位机器人方案。
May, 2022
该研究介绍了一个新的人类常识任务,人类中心共识基础,并创建了一个数据集 HumanCog,并开发了一种强有力的基线方法,强调了丰富的视觉常识和多模式集成的重要性,并提出了未来的工作方向。
Dec, 2022
论文提出了一种通过获取视觉常识来改善场景图生成模型的鲁棒性的方法,并使用 Transformer 模型结合场景图结构训练了 GLAT 模型,该模型可以纠正明显的错误。通过实验证明,该模型比其他方法更好地学习了视觉常识,并提高了最先进场景图生成模型的准确性。
Jun, 2020
本文研究了在文本游戏中使用基于视觉数据集得到的常识推理有助于提高游戏 AI 效率的优势,对比了空间关系的统计信息并在常识推理任务中进行验证实验,结果表明该方法优于现有最先进的方法。
Oct, 2022
本研究提出了一种名为 COINS 的生成模型,可以在高级语义规格的控制下合成 3D 场景内与虚拟人之间的自然互动,该模型通过编码统一的潜在空间和位置编码来嵌入互动语义,并可以自然地合成多个对象之间的组合互动,实验结果表明该模型可以合成具有语义控制的真实人 - 场景交互。
Jul, 2022
探讨使用大量语言模型来实现场景理解的常识;介绍了三种利用语言对包含对象的室内环境进行分类的范例:(i)零样本方法,(ii)前馈分类器方法和(iii)对比分类器方法,在现代空间感知系统生成的 3D 场景图上进行操作,并通过分析每种途径,展示了显着的零样本泛化和转移能力;最后,展示了这些方法也适用于推断包含房间的建筑标签,并在真实环境中展示了零样本方法。
Sep, 2022