ProTo：面向程序驱动任务的程序引导Transformer

Oct, 2021

ProTo：面向程序驱动任务的程序引导Transformer

ProTo: Program-Guided Transformer for Program-Guided Tasks

Zelin Zhao, Karan Samel, Binghong Chen, Le Song

TL;DR通过程序引导任务进行学习，ProTo结合语义和结构指导，并通过跨注意力和掩码自我注意力在规范和程序中的例程之间传递消息。在GQA视觉推理和2D Minecraft策略学习数据集上，ProTo明显优于先前现有的最先进方法，并表现出更好的泛化能力。

Abstract

Programs, consisting of semantic and structural information, play an important role in the communication between humans and agents. Towards learning general program executors to unify perception, reasoning, and decision making, we formulate program-guided tasks which require learning t

发现论文，激发创造

使用典型表示的强化学习

Proto-RL 是一种基于自我监督的框架，将表示学习与探索相结合，通过原型表示来实现，从而解决了强化学习中表示学习与探索之间的挑战，并在不带下游任务信息的环境中预训练这些任务无关的表示和原型，实现了一组困难的连续控制任务的最新下游策略学习。

Feb, 2021

使用乐高揭示变形金刚：一项综合推理任务

提出了一个综合推理任务LEGO，研究了Transformer架构如何学习这个任务，特别关注预训练和数据组成等数据效应，从而提出了一种假设，在LEGO任务中预训练有所帮助，因为存在一定的结构化注意力模式，经实验证实。同时提出LEGO注意力模块，是vanilla注意力头的可替换选择，显著减少Flops并维持或甚至提高模型的大规模预训练性能。

Jun, 2022

从感知到程序：正则化、过度参数化和资瓷化

研究了神经符号程序合成技术，通过神经网络将感知输入解析为低维可解释表示，然后通过合成的程序进行处理，探索了多任务学习，摊销推理，过度参数化和可区分策略的技术。

Jun, 2022

视觉编程：无需训练的构成性视觉推理

VISPROG是一种神经符号方法，用于解决复杂和组合的视觉任务，所需的仅是自然语言指令，通过生成类似Python的模块化程序来实现，每行程序可以调用各种计算机视觉模型，图像处理算法或Python函数以产生中间输出，展示了其在4个不同的任务上的灵活性。

Nov, 2022

基于程序的、组合通用的机器人操作

通过提出一种利用语言指令的可执行程序来更好地利用预训练的VL模型的模块化方法，我们可以改善在任务和物体未知情况下的运用和组合泛化能力。

Apr, 2023

STEVE-1：Minecraft文本与行为生成模型

本文介绍了一种叫STEVE-1的新方法，该方法使用了instruction-tuned Video Pretraining (VPT)模型来构建基于文本的AI模型，可在Minecraft游戏中执行开放式指令，成本低，性能出色。

Jun, 2023

基于网格的强化学习环境中的通用和可解释知识学习

使用程序合成方法对深度强化学习代理进行模仿，以了解其学习的概念和决策过程。

Sep, 2023

掌握Transformer：隐含的推理者——通向泛化极限的机械之旅

我们研究transformers模型是否能够学会隐性地进行参数化知识推理，发现它们能够通过全面且超过过拟合的训练学会隐性推理，但在不同推理类型上的推广程度存在差异：在面对分布之外的例子时，transformers在组合推理上无法进行系统化推广但在比较推理上能够成功。通过训练期间对模型内部进行分析实验，我们发现了隐性推理的机制，如泛化电路的形成以及它与泛化和记忆电路相对效率的关系，还发现了系统性与泛化电路配置之间的关系。我们的研究结果指导着数据和训练设置，以更好地实现隐性推理，并提出了改进transformer架构的潜在方法，如鼓励跨层面的知识共享。此外，我们证明对于具有大型搜索空间的具有挑战性的推理任务，基于非参数化记忆的GPT-4-Turbo和Gemini-1.5-Pro无论在提示样式还是检索增强方面都表现糟糕，而完全掌握隐性推理的transformers模型能够实现近乎完美的准确性，展示了参数化记忆在复杂推理中的威力。

May, 2024

OmniJARVIS: 统一的视觉-语言-行为标记使得开放世界指导跟随代理

OmniJARVIS是一个新颖的视觉-语言-动作（VLA）模型，用于开放世界Minecraft中的指令跟随代理。通过对多模态交互数据进行统一分词，OmniJARVIS能够具备强大的推理和高效的决策能力，并在开放世界Minecraft中的多种任务上表现出优异的性能。

Jun, 2024

Optimus-1：混合多模态记忆赋能的智能体在长远任务中表现优异

本研究解决了现有智能体在开放世界中完成长远任务的困难，归因于缺乏必要的世界知识和多模态经验。提出的混合多模态记忆模块通过构建知识图谱和历史信息池，使得智能体能够有效学习与反思，从而在Minecraft中的长远任务中表现显著优于现有智能体，接近人类水平。

Aug, 2024