- ICLR连接现实世界物体中心学习的鸿沟
该研究提出了一种无监督学习的方法,即利用自监督训练的模型来重构特征,从而在完全无监督的情况下出现物体为中心的表示形式,在模拟数据和实际数据集上表现良好,显示出竞争力。
- ICML基于目标中心表示的稀疏关系推理
本研究探讨了关系神经结构在操作对象中心(基于插槽)表示时所学软规则的可组合性,发现增加稀疏性可以提高某些模型的性能并导致更简单的关系,但部分对象没有被完全捕获时,对象中心表示可能会产生一些失败模式,这些发现展示了可解释性和性能之间的权衡,甚 - 学习与胶囊:一项调查
介绍了胶囊网络的基本概念和动机,以及它们在图像识别、视频、自然语言处理、医学成像等领域的广泛应用,探讨了胶囊网络研究中的主要障碍和未来研究的方向。
- ICLR通过判别权重生成建立物体空间的目标追踪
本文提出了一种利用交互学习物体特征的框架,并采用卷积超级网络对每个物体进行编码,以提高标签效率。
- ICLR基于条件的视频目标中心学习
该论文提出了一种弱监督学习方法,以对象为中心的表示和光流条件模型,可提高现实数据下的实例分割和追踪效果,改进了查询模型的灵活性,并扩展了应用范围。
- 从多个视角学习多对象场景的基于对象的表征
MulMON 基于多视角学习,旨在实现准确和脱耦的多对象场景的目标结构化,克服了单视角方法在物体场景表示中遇到的问题。
- ICLR文盲 DALL-E 学习创作
本文介绍了一种结合了 DALL-E 的构成性和 Slot Attention 模型的目标 - 中心表示模型的自动编码架构,名为 SLATE,可以在没有文本的情况下进行系统化的泛化,该模型基于 Image GPT 解码器,可以用于处理图像,实 - Physion:人类与机器在视觉中的身体动作预测评估
本文介绍了 Physion 这一用于评估视觉算法理解真实世界物理动态能力的数据集和基准测试,通过对一系列模型的基准测试发现,生成对象中心表征的视觉算法通常优于未生成该表征的算法,但仍远远落后于人类的表现。我们公开发布了所有数据和代码,以便全 - ICML高效迭代摊销推理,学习对称和解缠多对象表示
EfficientMORL 提出了一个快速的无监督学习物体中心表示的框架,通过引入自身对称和解缠的变分自动编码器和轻量级网络相结合,以最小化对迭代摊销推理的依赖,成功地解决了优化挑战。
- 基于物体中心表征的自监督视觉强化学习
该研究提出了使用基于物体的表征作为组成性生成世界模型所学习的模块化和结构化观察空间,以帮助自主代理发现和学习有用的技能,并进一步将这些技能组合起来解决复杂的组合任务。
- ICML目标中心生成模型中的重建瓶颈
本文探讨了基于 VAE 的 GENESIS 模型中的 “重构瓶颈” 在场景分解中的作用。研究结果表明,这些瓶颈不仅能够决定重构和分割质量,而且还能够对模型行为产生重要影响。
- 基于插槽注意力的目标中心学习
本文提出了一个名为 Slot Attention 的架构组件,它能够从低级感知特征中提取物体为中心的表示,并能够推广到未见组合。
- 基于视频序列的无监督物体表示基准测试
研究了四种基于物体的表征方法的感知能力,设计了一个基准测试集来评估物体检测、分割和跟踪的基本感知能力,并发现具有非约束潜在表征的架构比基于空间变换器的架构具有更强的物体感知能力。
- ICLR基于面向对象预测和规划的物理交互推理
本研究提出了一种无需直接监督对象属性即可实现学习物理场景的物体中心表征的方法,我们的模型通过联合学习感知函数,物理交互函数和渲染函数,可以精确地预测物理变化并具有可操作性的直观物理表现。
- Grasp2Vec: 自监督抓取中学习物体表示
本文探讨了如何通过自主机器人与环境进行交互,获得适用于机器人操纵任务的有效物体中心表示,无需人为标注。基于对象持久性的表示学习方法能够随着机器人收集更多经验,不断改进表示,从而可以在无需人为干预的情况下扩展规模。我们的实验表明,这种自我监督