- 结合时空抽象以实现更好的泛化规划
Skipper 是一个受人类有意识规划启发的基于模型的强化学习代理,利用空间和时间抽象来在新情境中推广学到的技能,通过自动将任务分解为更小、更可管理的子任务来实现稀疏决策,并将计算集中在环境相关的部分。与现有的基于层次规划的方法相比,基于图 - DePT: 解耦式提示调节
该研究通过解决提示调整中的基础 - 新任务权衡困境,提出了一种基于 Decoupled Prompt Tuning (DePT) 框架的方法,通过将基础特定知识与特征通道解耦,最大程度地保留原特征空间中的任务共享知识,从而在新任务中实现更好 - 使用强化学习进行视觉概念的组合学习
深度强化学习代理需要数百万次训练以解决与指令相关的导航任务,对于其泛化到新颖指令组合的能力还不清楚。然而,有趣的是,儿童能够将基于语言的指令分解并导航到所指对象,即使他们以前没有见过这种查询的组合。因此,我们创建了三个 3D 环境来研究深度 - ICCVMetric3D:基于单张图片的零样本度量三维预测
基于大规模数据训练和解决来自不同摄像机模型的度量歧义,实现了在野外图像中无需训练即可广义泛化的单视图度量深度模型,并在 7 个零样本基准测试上展现了领先表现。
- ICCV放松休闲:通过观看 SlowTV 学习重建世界
自我监督单目深度估计(SS-MDE)具有可扩展到大量数据的潜力。我们通过从 YouTube 中策划的 SlowTV 数据集提供了更多的数据,培养了一个能够实现对室内 / 室外数据集的零 - shot 泛化的 SS-MDE 模型,这一结果超越 - 零样本强化学习中的泛化探索
研究如何在强化学习的零样本泛化中,通过训练一个能够有效探索领域的行为策略,来克服先前面临的过拟合问题。该研究通过使用一套名为 “ExpGen” 的算法,在多个 ProcGen 挑战任务中实现了良好的实验效果,尤其是在迷宫和抢劫等与任务可视化 - ACL适应增强的召回器作为通用插件提升语言模型的泛化能力
以通用的文本检索插件为基础,通过增强适应性的文本检索器 (AAR),为各种语言模型 (large target LMs ranging from 250M Flan-T5 to 175B InstructGPT) 提供外部知识,从而显着提高 - ACL模型生成的预训练信号改进了文本 - 文本转换器的零 - shot 泛化能力
本文探讨了模型生成信号在改善零样本泛化文本到文本转换器(如 T5)中的效果。 我们研究了使用辅助模型预训练 T5 的各种设计,以构造更具挑战性的标记替换作为主要模型的去噪前缀。 基于这些研究,我们开发了一个新模型 METRO-T0,并改进了 - 基于视觉绑定、自监督的语音模型中的音节发现和跨语言泛化
本文提出了一种自我监督语音模型训练方法,可以自动检测语音中的音节边界并对同一音节进行聚类,该模型不仅在英语上表现优异且能够泛化到其他语言,实现了零样本学习,且在四种语言上实现了词分割任务的零样本迁移,胜过了之前的最佳成果。
- 医学图像上的 SAM:三种提示模式的全面研究
本文针对 Segment Anything Model(SAM)在医学图像分割领域的 zero-shot 泛化能力进行了研究,并发现模型对于不同数据集和提示的表现会有差异,通过提供适当的提示,如边界框,SAM 的性能显著提高。
- LLM+P:利用最优规划提升大型语言模型的性能
本文介绍了 LLM + P 框架,将经典计划器的优点结合到大语言模型中,可以通过自然语言描述解决计划问题,经过实验发现 LLM + P 可以提供大多数问题的最优解,而 LLMs 则无法为大多数问题提供甚至可行的计划。
- 从零到英雄:探究符号任务在指导调整中的作用
本研究提出一种采用符号任务来增强指令调整的简单而有效方法,在多个基准测试中验证该方法可以提高语言模型的零 - shot 表推理能力,并证明符号任务不会影响语言模型的普适性。
- 使用双编码器改进场景文本编辑的扩散模型
DIFFSTE 是一个改善预训练扩散模型性能的双编码器设计框架,通过指令调整训练,实现了场景文本编辑中正确文本渲染和风格控制的任务,使其具有零 - shot 泛化能力。
- 开放式视频实例分割
本文提出了开放词汇视频实例分割这一新颖任务,在收集的大词汇量视频实例分割数据集上基于集成的 MindVLT 实现了该任务。实验结果表明,该方法能够有效地处理实际中从未见过的新类别,并且提供了数据集和代码以促进未来的研究。
- CVPR开放世界中的物体检测:通向全能物体检测
本文提出 UniDetector,一种通用的目标检测器,克服了传统检测器中人工注释、视觉信息和新类别的限制,并在 LVIS、ImageNetBoxes 和 VisualGenome 等大型数据集上表现出强大的零样本泛化能力,探讨了其对于开放 - 使用预训练视觉语言模型进行开放世界物体操作
通过使用预训练的视觉 - 语言模型,开发了一种简单的方法 Manipulation of Open-World Objects (MOO) 来从自然语言命令和图像中提取目标标识信息,并将机器人策略基于当前图像、指令和提取的对象信息。在一个真 - EMNLP拥有 100 万 GPU 小时,应该如何选择训练语言模型?
本研究旨在构建一个大型语言模型 BLOOM,对千亿级模型不同结构、不同预训练语料、多语言模型的零样本泛化性能进行剖析研究,并探究 Transformer 的规模扩展行为以选择合适的目标模型大小、形状和训练配置。
- 在少数无奖励部署中学习通用世界模型
在深度强化学习中,为了建立通用型智能体,需要实现两个关键的条件:探索是任务无关的,探索策略能够在无需重新训练的情况下收集大量数据。本文提出了一种新的强化学习范式 —— 无奖励部署效率设置,并在此基础上介绍了 CASCADE 算法,通过一种信 - CLUTR: 通过无监督任务表示学习进行课程学习
介绍了 CLUTR:一种新型的无监督课程学习算法,通过将任务表示和课程学习分解成两个阶段的优化,成功地克服了任务分布不稳定性的问题,提高了稳定性,并在 CarRacing 和 Navigation 等环境中实现了具有挑战性的零 - shot - 视觉 - 语言模型中零 - shot 泛化的测试时提示调整
本文提出一种叫做测试时提示调整 (TPT) 的方法,可在单个测试样本上实时学习适应性提示,优化提前提供的 CLIP 模型动态调整提示, 以最小化模型预测时的不确定度,提高 CLIP 模型的泛化能力。实验结果表明,TPT 方法在自然情况下的