ProTo:面向程序驱动任务的程序引导Transformer
Proto-RL 是一种基于自我监督的框架,将表示学习与探索相结合,通过原型表示来实现,从而解决了强化学习中表示学习与探索之间的挑战,并在不带下游任务信息的环境中预训练这些任务无关的表示和原型,实现了一组困难的连续控制任务的最新下游策略学习。
Feb, 2021
提出了一个综合推理任务LEGO,研究了Transformer架构如何学习这个任务,特别关注预训练和数据组成等数据效应,从而提出了一种假设,在LEGO任务中预训练有所帮助,因为存在一定的结构化注意力模式,经实验证实。同时提出LEGO注意力模块,是vanilla注意力头的可替换选择,显著减少Flops并维持或甚至提高模型的大规模预训练性能。
Jun, 2022
研究了神经符号程序合成技术,通过神经网络将感知输入解析为低维可解释表示,然后通过合成的程序进行处理,探索了多任务学习,摊销推理,过度参数化和可区分策略的技术。
Jun, 2022
VISPROG是一种神经符号方法,用于解决复杂和组合的视觉任务,所需的仅是自然语言指令,通过生成类似Python的模块化程序来实现,每行程序可以调用各种计算机视觉模型,图像处理算法或Python函数以产生中间输出,展示了其在4个不同的任务上的灵活性 。
Nov, 2022
本文介绍了一种叫STEVE-1的新方法,该方法使用了instruction-tuned Video Pretraining (VPT)模型来构建基于文本的AI模型,可在Minecraft游戏中执行开放式指令,成本低,性能出色。
Jun, 2023
我们研究transformers模型是否能够学会隐性地进行参数化知识推理,发现它们能够通过全面且超过过拟合的训练学会隐性推理,但在不同推理类型上的推广程度存在差异:在面对分布之外的例子时,transformers在组合推理上无法进行系统化推广但在比较推理上能够成功。通过训练期间对模型内部进行分析实验,我们发现了隐性推理的机制,如泛化电路的形成以及它与泛化和记忆电路相对效率的关系,还发现了系统性与泛化电路配置之间的关系。我们的研究结果指导着数据和训练设置,以更好地实现隐性推理,并提出了改进transformer架构的潜在方法,如鼓励跨层面的知识共享。此外,我们证明对于具有大型搜索空间的具有挑战性的推理任务,基于非参数化记忆的GPT-4-Turbo和Gemini-1.5-Pro无论在提示样式还是检索增强方面都表现糟糕,而完全掌握隐性推理的transformers模型能够实现近乎完美的准确性,展示了参数化记忆在复杂推理中的威力。
May, 2024
OmniJARVIS是一个新颖的视觉-语言-动作(VLA)模型,用于开放世界Minecraft中的指令跟随代理。通过对多模态交互数据进行统一分词,OmniJARVIS能够具备强大的推理和高效的决策能力,并在开放世界Minecraft中的多种任务上表现出优异的性能。
Jun, 2024
本研究解决了现有智能体在开放世界中完成长远任务的困难,归因于缺乏必要的世界知识和多模态经验。提出的混合多模态记忆模块通过构建知识图谱和历史信息池,使得智能体能够有效学习与反思,从而在Minecraft中的长远任务中表现显著优于现有智能体,接近人类水平。
Aug, 2024