- AAAI解放已见类别:通过锚点生成和分类重构提升少样本和零样本文本分类
我们提出了一个简单而有效的策略,通过利用大型预训练语言模型生成伪新样本并选择最具代表性的样本作为类别锚点,将多类分类任务转换为二元分类任务,并使用查询 - 锚点对的相似性进行预测,从而在少样本和零样本任务中充分利用有限的监督信号,实现模型从 - 基于草图的图像检索的双模态提示
在本研究中,我们提出了一种双模态的提示 DP-CLIP 网络,通过采用自适应提示策略,以有效地适应新类别并捕捉每个目标类别内的独特鉴别线索,从而实现了在零样本和细粒度领域内的检索任务的创新。
- USAT: 通用说话者自适应文本转语音方法
现有的文本转语音(TTS)研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外 / 未训练演讲者进一步合成真实语音的挑战,我们提出了一个整合了零样本和少样本演讲者适应策略的框架。
- 通过对抗性语言适应实现零样本跨语言立场检测
在多语言状态检测领域,本论文首次引入零样本跨语言状态检测方法(MTAB),通过翻译增强和对抗学习提升了模型效果,实验证明了该方法的有效性。
- 通过语句调整在编码模型上实现自然零样本提示
使用 Statement-Tuning 技术,通过对有限的陈述进行建模,训练一个编码器模型来确定标签,实现跨任务泛化,并展示相比于最先进的大型语言模型状态,Statement Tuning 具有竞争性能且参数更少,研究还探索了几个设计选择对 - ICLR没有指数数据就没有 “零样本”:预训练概念频率决定多模态模型性能
多模态模型的 “零样本” 泛化能力在大规模训练范式下面临指数级的数据需求,其性能受预训练数据集中概念频率的影响,并对长尾数据表现较差。
- FreeSeg-Diff:基于扩散模型的无需训练的开放词汇分割
该论文研究了基于开源预训练模型的零样本、无需训练的图像分割方法,通过结合不同的小型基础模型,利用扩散模型生成的特征,以及基于 CLIP 模型进行开放性词汇处理,实现了在 Pascal VOC 和 COCO 数据集上超越许多基于训练的方法并与 - 更好地呼唤 SAL:迈向 Lidar 中的任意物体分割学习
我们提出了一个名为 SAL(Segment Anything in Lidar)的方法,包括一个可文本提示的零样本模型用于在 Lidar 中分割和分类任何物体,以及一个无需手动监督的伪标签引擎用于模型训练。通过利用 2D 视觉基础模型生成免 - 基于视觉基础模型的无标注语义分割
我们构建了一个轻量级模块,基于自监督预训练的视觉编码器与预训练文本编码器对齐图像特征,利用现有的基础模型生成语义分割数据集的免费注释,并使用这个模块为任何预训练视觉编码器带来基于语言的语义,只需少量无注释训练数据,表现出令人印象深刻的泛化能 - 关于医学图像分析的大型视觉语言模型的实证研究
本研究探讨了视觉语言模型在医学图像分析任务中的零样本和少样本鲁棒性,通过全面的实验验证了视觉语言模型在分析生物医学图像方面的有效性。
- 零封装的基于流匹配的文本转语音使你尽情大笑
提出了基于短音频提示的 ELaTE 零样本文本到语音模型,能够以精确的笑声控制时间和表达来生成任何说话者的自然笑声,比传统模型具有更高质量和可控性。
- TransLLaMa: 基于 LLM 的同步翻译系统
经过小规模数据集上的微调后,预训练的开源解码器 - 仅模型可以通过生成特殊的 “等待” 标记直接控制输入分段,从而在同时翻译任务中达到与最先进基准模型相媲美的 BLEU 分数;尚未进行先前训练的闭源模型在此任务中显示出令人鼓舞的结果,为改进 - 将触觉与一切相连:学习统一的多模态触觉表征
通过与预训练的图像嵌入相关联,UniTouch 统一了视觉为基础的触觉传感器与其他多种模态之间的关系,并引入了可学习的传感器特定标记,使模型能够同时从一组异构触觉传感器学习,从而在零样本设置下进行各种触觉感知任务。UniTouch 是第一个 - ACL零样本知识组合的统一框架
通过提出一个新的框架,对领域知识和适配器层进行零样本模块组合,我们进行了全面的基准研究,结果表明集成方法以及简单的加权方法在组合模块方面的有效性。
- AAAIZero-1-to-3:通过一批初来的学生实现领域级零射击认知诊断达到三个诊断目标
通过预训练诊断模型并使用双重正则化器,将学生状态分解为域共享和域特定部分,以实现领域级零样本认知诊断的目标。同时,分析先行学生的行为模式生成模拟练习日志,使得冷启动学生的认知状态经过虚拟数据的精炼后能够用于诊断,弥合了领域适应的目标。研究结 - OMG:通过混合控制器实现开放词汇的动作生成
基于 OMG 框架,我们通过预训练和微调将文本转动作的生成过程进行改进,并引入 motion ControlNet 和 Mixture-of-Controllers 模块,实现了针对零样本文本生成动作的显著提升。
- 无训练的零样本组合图像检索和本地概念重新排序
本文提出了一种新的基于零样本训练的无需训练的组合图像检索方法 (TFCIR),通过将查询翻译成易于理解的文本,提高计算效率并保持模型的泛化性。此外,引入了局部概念再排序机制 (LCR) 来聚焦于从修改指令中提取的有区别的局部信息。在三个 Z - VLFM: 视觉语言前沿地图用于零样本语义导航
人类如何利用语义知识在陌生环境中导航并决定下一步探索的方式对于开发能够展现类似人类搜索行为的机器人来说至关重要。我们介绍了一种零样本导航方法,即视觉语言前沿地图(VLFM),其受人类推理的启发,并设计用于在新环境中驶向未见过语义对象。VLF - 仅语言实现高效训练的零样本组合图像检索
我们提出了一种只使用语言进行训练的新型 CIR 框架,名为 LinCIR,通过一种名为自掩蔽投影(SMP)的新颖自我监督方法,将文本的潜在嵌入投影到标记嵌入空间,并构建一个新的文本,替换原始文本中的关键词标记,从而使得新文本和原始文本具有相 - 6D 物体位姿估计结合零样本学习
提出了一种名为 PoMZ 的新方法,通过融合预训练的几何和图像模型,实现了零样本物体 6D 位姿估计的最新进展,该方法无需任务特定的微调,在 BOP 基准测试中在无法见到的物体的 6D 定位领域取得了第一名。