使用 LEGO 积木实现交互式结构理解
提出了一个综合推理任务 LEGO,研究了 Transformer 架构如何学习这个任务,特别关注预训练和数据组成等数据效应,从而提出了一种假设,在 LEGO 任务中预训练有所帮助,因为存在一定的结构化注意力模式,经实验证实。同时提出 LEGO 注意力模块,是 vanilla 注意力头的可替换选择,显著减少 Flops 并维持或甚至提高模型的大规模预训练性能。
Jun, 2022
本文介绍的一系列具有挑战性的物理结构任务,探究了在这些任务上如何采用一系列深度强化学习代理的处理方式,并引入了多种新方法以提高性能。结果表明,使用结构化表示和结构化策略的代理比使用较少结构的代理表现更好,并且更具有推广性。同时本文还表明,将结构化表示和推理与强大的学习相结合的方法是实现丰富的直观物理、场景理解和规划代理的关键路径。
Apr, 2019
这项研究引入了乐高积木,通过无缝地整合局部特征增强和全局内容编排,设计了一种高效灵活的网络主干,用于迭代改进。乐高积木可以在测试时重新配置扩散主干,通过选择性跳过积木来减少采样成本并生成比训练数据分辨率更高的图像。实验结果表明,乐高积木提高了训练效率,加快了收敛速度,并在保持强大生成性能的同时促进了可变分辨率图像的生成。此外,与其他方法相比,乐高显著减少了采样时间,使其成为扩散模型的有价值增强。
Oct, 2023
该研究介绍了一种名为 Lego 的文本反演方法,用于从少量示例图像中反演与主体相关的概念。Lego 通过简单而有效的主体分离步骤以及引导单 / 多嵌入概念反演的上下文损失,成功实现了对这些概念的反演。在深入的用户研究中,与基准方法相比,Lego 生成的概念有超过 70% 的受试者更喜欢。此外,使用大型语言模型进行视觉问题回答的结果表明,Lego 生成的概念与文本描述更加一致。
Nov, 2023
BricksRL 是一个用于加强学习研究和教育的平台,它通过与 TorchRL 库连接,实现了在现实世界中创建、设计和训练定制的 LEGO 机器人,通过蓝牙双向通信与 LEGO 智能中枢交互,从而实现了 GPU 上的最先进的加强学习训练,为各种 LEGO 构建提供了灵活和高效的扩展方法。
Jun, 2024
本文介绍了一种神经符号 (混合) 组合推理模型,以将语言引导的视觉推理与机器人操作相结合。该模型通过使用共享的原始技能库以任务非特定的方式处理所有情况。通过语言解析器将输入查询映射为由这些原语组成的可执行程序取决于上下文。结果表明,该方法达到了非常高的准确性,同时可以进行少量的视觉微调,从而实现了真实场景的可转移性。
Oct, 2022
利用增强现实技术的 BrickPal 系统,结合自然语言处理技术生成装配指南,通过 AR 头显提供实时指导,有效地帮助用户进行积木组装,NLP 算法生成的装配序列与人工调整的序列有相同的可用性。
Jul, 2023
通过硬件 - 软件协同设计,本文研究了安全高效的机器人乐高操控,并设计了末端工具(EOAT)以降低问题维度,使得大型工业机器人能够轻松操控乐高积木。同时,通过进化策略在乐高操控中安全优化机器人运动。实验结果表明,EOAT 在操控乐高积木上表现可靠,学习框架能有效且安全地提高操控性能达到 100% 成功率。通过在多个机器人上(例如 FANUC LR-mate 200id/7L 和 Yaskawa GP4)部署该协同设计,验证其泛化和可迁移性。最后证明所提出的解决方案实现了可持续的机器人乐高原型制作,使得机器人能够反复组装和拆解不同的原型。
Sep, 2023
LegoFormer 是一种基于 transformer 模型的体素 3D 重建技术,通过使用自注意力层在所有计算阶段分享视角之间的信息,并将输出分解为低秩矩阵,从而实现对各个独立结构的预测和聚合,具有竞争性的性能和可解释性的优点,可用于现实数据的广义重建任务。
Jun, 2021