- ICML放下你的标签:无监督迁移
基于不同基础模型的表示空间引导搜索,TURTLE 发现了下游数据集中的潜在标签而无需任何监督学习,并在 26 个数据集上取得了新的无监督性能的最新成果,超越了零样例传递和无监督提示调优基线的平均表现。
- 从纯计划到纯策略与之间:采用递归树规划方法
递归树规划(RTP)同时利用策略和贪心算法来改善规划性能和零样本迁移,使用广义 Dijkstra 算法作为搜索方法,将已学习的任务作为广义动作集合以提高规划性能,并在不同层次上添加原始动作。
- ACL小模型仍然是有效的跨领域论据提取器
通过探索基于问题回答和模板填充的技术,研究了本文中的本体转移方法对事件参数提取的有效性,以及小型模型训练在适当的源本体上可以实现零射击性能优于 GPT-3.5 或 GPT-4 的挑战。
- ACL独立于语言的表征改善零 - shot 摘要
使用领域下的生成任务对预训练模型进行微调往往导致零热点条件下的灾难性遗忘。本研究关注摘要生成并通过语言无关的表示解决这个问题。通过在单语摘要上进行训练,我们在新语言或语言对之间进行零热点传输。首先我们展示原先微调的模型在输出行为和内部表示上 - Humanoid-Gym: 人形机器人的零样本 Sim2Real 迁移增强学习
基于 Nvidia Isaac Gym 的 Humanoid-Gym 是一个易于使用的强化学习框架,旨在训练仿人机器人的运动能力,重点是从模拟到真实环境的零迁移。
- 面向手术姿势识别的零样本基于提示的视频编码器
利用 Bridge-Prompt 框架,我们对预训练的 vision-text 模型 (CLIP) 进行微调,以在外科手术视频中进行手势识别。实验结果显示基于提示的视频编码器在外科手势识别任务中优于标准编码器,尤其在零样本情况下表现出强大性 - 抓取一切:将教师增强的策略梯度学习与实例分割相结合,抓取任意物体
交互抓取从杂乱环境中非常类似于人类灵巧度的问题中,是机器人学习中最久远的问题之一。我们提出了一种新颖的两阶段学习框架 —— 师傅增益策略梯度(TAPG),将强化学习和策略蒸馏相结合。通过训练一位师傅策略以掌握基于物体姿态信息的运动控制,TA - FocusCLIP: 人类中心任务中的多模态主体级指导零样本迁移
我们提出了 FocusCLIP,在 CLIP 框架中整合了主题级引导 —— 一种针对特定目标的监督机制,从而在人类中心任务的零样本迁移方面取得了改进。
- 预训练的视觉不确定性
准确的不确定性估计对可信赖的机器学习至关重要,本研究引入了视觉模型的首个预训练不确定性模块,类似于标准的预训练,这使得在大型预训练数据集上学习到的不确定性能够零样本迁移到专门的下游数据集,我们通过解决以前的不确定性模块中的梯度冲突并将训练加 - 通过函数编码器实现零样本强化学习
通过使用函数编码器来表示奖励函数或转换函数,学习代理机器人在运行时如何与先前的任务相关联的方法,并通过在强化学习算法中引入功能编码器任务表示来展示最先进的数据效率、渐近性能和训练稳定性。
- AAAISkyScript:遥感视觉语言大规模和语义多样性数据集
使用地理坐标将无标签的遥感图像与 OpenStreetMap 中的丰富语义相连接,构建了一套遥感图像的综合视觉 - 语言数据集 SkyScript,包含 260 万个图像 - 文本对,覆盖 29K 个不同的语义标签。通过在此数据集上进行持续 - 大规模图像和视频的通用对象基础模型
本研究提出了 GLEE,这是一个用于定位和识别图像和视频中对象的对象级基础模型。通过一个统一的框架,GLEE 在各种对象感知任务的开放世界场景中完成了检测、分割、跟踪、定位和识别任意对象的工作。它通过强大的学习策略从多样的数据源获得知识,构 - 领域随机化通过最大化熵
通过在模拟中自动调节动力学分布而无需真实世界数据,我们提出了 DOmain RAndomization via Entropy MaximizatiON (DORAEMON) 方法,该方法通过增加采样动力学参数的多样性来提高自适应性和泛化能 - 广义逻辑调整:在基础模型中消除标签偏差以校准微调模型
该研究系统地检查了基础模型中的偏见,并展示了我们提出的广义对数调整(GLA)方法的有效性。GLA 在解决预训练中的基本缺陷方面取得了重大改进,对于各种任务都取得了显著的提高。
- CWCL:使用持续加权对比损失进行跨模态迁移
本文探讨了交叉感知培训中的对比训练,其中一个模态的预训练模型通过成对的数据用于学习另一个领域的表示学习。采用连续加权对比损失(CWCL)的本文提出了一个新的损失函数,通过连续相似性度量来对齐嵌入空间。在 0-shot 图像分类、0-shot - 预训练多语言翻译模型中的属性控制器是否具有可迁移性?
以预训练的大规模多语种翻译模型为基础,通过研究训练和推理过程中的控制技术,探索了零 - shot 方向上的属性控制能力,并在低资源语言孟加拉进行了人工评估。
- 多领域零样本语义分割的评估
使用自主学习的视觉语言模型,建立了一个多领域语义分割(MESS)基准,评估了 8 个最近发布的模型,并分析了零样本转移模型表现的特点。
- 对自动驾驶中 Segment Anything Model (SAM) 在恶劣气象下的鲁棒性研究
本研究旨在探究 SAM 在自动驾驶中的应用,尤其是在恶劣天气条件下的鲁棒性,为未来的应用提供有价值的见解。
- 视觉 - 语言模型能从自然视频中识别分心驾驶员的行为
提出了一种基于 CLIP 的驾驶员活动识别方法,该方法可以从自然驾驶图像和视频中识别驾驶员分心行为,并具有零样本迁移和面向任务的微调的特点。
- CVPR视觉语言预训练多实例零样例迁移用于组织病理学图像
提出了 MI-Zero 框架,它将对比可视语言预训练模型的零射频转换重构为多实例学习,以在吉盘组织学全幻灯片图像上释放其零射频转换能力,从而在预先训练的编码器不需要任何额外的标签的情况下进行多个下游诊断任务。