In this paper, we propose and realize a new deep learning architecture for
discovering symbolic representations for objects and their relations based on
the self-supervised continuous interaction of a manipulator
该研究旨在弥合深度学习和符号 AI 之间的差距,提出了一种新型的端到端神经网络架构,可以从原始像素数据学习形成具有显式关系结构的命题表示。通过评估和分析体系结构,引入了一系列不同复杂度的简单视觉关系推理任务。结果表明,预先训练这种任务的课程,可以学习生成可重复使用的表示形式,在比较多个基线架构后更好地促进了先前未见过的任务的后续学习。 最后,研究者通过可视化成功训练过的模型的工作方式,揭示了体系结构的功能。
通过提出神经符号化方法,将高级符号特征用作中间表征,来解决自然语言指令和第一视角视觉映射到与 3D 环境中对象进行交互的操作序列时神经网络特征提取对小的改变过于敏感而未能适应测试集中未见过的属性和指令的问题。在 ALFRED 基准测试的子任务评估中,我们的实验结果表明,和端到端的神经模型相比,我们的方法在切换对象、拿起对象和切片对象的成功率等未知环境下的交互任务中显着优于前者 9 点,46 点和 74 点。