- 基于预训练扩散模型的零样本视频语义分割
我们引入了第一个基于预训练扩散模型的零样本视频语义分割方法,该方法在各种视频语义分割基准测试中明显优于现有的零样本图像语义分割方法,并且在 VSPW 数据集上与有监督的视频语义分割方法不相上下,尽管它没有经过显式的 VSS 训练。
- 魔鬼的辩护:面向 LLM 代理的预期反思
我们介绍了一种新颖的方法,为 LLM 智能体提供自省能力,以增强其在解决复杂任务中的一致性和适应性。我们的方法促使 LLM 智能体将给定的任务分解为可管理的子任务(即制定计划),并持续对其行动的适用性和结果进行自省。通过在 Web 环境中使 - 常见采购词汇分类的零样本层次分类
使用零样本研究方法,基于预训练的语言模型和标签分类法,对公共招标进行分类,并且在低频类别分类表现上优于三个不同的基线模型,并能够预测未见过的类别。
- 通过迭代多模态融合实现漫画中的零样本角色识别和说话人预测
漫画处理中的角色识别和对话者预测是至关重要的,本研究提出了一种零样本方法,利用未注释的漫画图像单独识别角色和预测说话者名称,并通过一个迭代的多模态框架进行实验验证。
- SHROOM-INDElab 在 SemEval-2024 任务 6 中的零击中和少击中基于 LLM 的幻觉检测分类
通过使用大型语言模型进行提示程序设计和上下文学习来构建大学智能数据工程实验室团队参与 SemEval-2024 任务 6 竞赛的 SHROOM-INDElab 系统,该系统在上下文特定任务、角色和目标概念的定义以及自动生成示例的基础上,扩展 - 第六届 ABAW 挑战赛上基于视觉语言模型的零样本复合表达识别
利用预训练的视觉语言模型结合传统的 CNN 网络,提出了一种用于识别合成表情的零样本方法。
- ACL零封装生成型语言隐写术
本研究提出了一种基于上下文学习的零样本方法,用于语言隐藏,以更好地实现感知和统计上的不可察觉性,并设计了几个新的度量标准和可复现的语言评估方法来衡量隐藏文本的隐晦性。实验结果表明,该方法产生了比其他任何方法更多的无罪和可理解的隐藏文本。
- LangBridge:无需多语言监督的多语言推理
通过引入 LangBridge,我们介绍了一种零 - shot 方法,用于在没有多语言监督的情况下适应语言模型的多语种推理任务。虽然仅利用英语数据进行训练,LangBridge 显着提高了语言模型在数学推理、编码和逻辑推理等低资源语种上的性 - 利用大型语言模型探索零样本上位词预测的基于提示的方法
该研究通过使用大型语言模型(LLMs)对零样本超级类别预测进行研究,基于文本概率计算方法,进行多种生成提示的应用。实验证明,语言模型提示的有效性与经典模式之间存在着强关联,这表明可以在使用较大模型之前,通过较小模型进行初步提示选择。我们还通 - 介绍 Bode:用于葡萄牙语基于提示任务的精细调整大型语言模型
提出了一种基于 LLaMA 2 的经过精调的模型,用于处理葡萄牙语提示,并通过零样本方法在分类任务中进行性能评估,为葡萄牙语提供了令人满意的结果,并且具有研究或商业用途的自由模型。
- Text2AC-Zero:使用 2D 扩散一致合成动画角色
我们提出了一种零样本方法,基于预训练的文本到图像扩散模型实现一致的文本到动画角色合成。通过利用现有的基于文本的动作扩散模型生成多样的动作,并使用其指导文本到图像模型,我们成功地在不需要训练或微调的情况下生成了具有不同动作和风格的时序一致的视 - 零样本点云配准
本研究提出了一种零样本点云配准方法 ZeroReg,通过将图像特征从关键点传递到点云中,利用 3D 几何邻域信息构建时引入的图像特征来解决传统方法中需要在特定数据集上进行训练的问题,因此,ZeroReg 可在点云配准任务中实现出色的性能。
- GenZI: 零 Shot 3D 人物场景交互生成
可以不借助任何 3D 人 - 场景交互数据合成 3D 人与场景交互吗?我们提出了 GenZI,这是第一个零样本方法,用于生成 3D 人与场景的交互。GenZI 的关键在于从大型视觉 - 语言模型 (VLMs) 中提取交互先验知识,这些先验知 - 跨图像注意力的零样本外观转换
利用文本到图像生成模型中的语义知识,在具有相似语义但形状可能差异大的物体之间进行视觉外观转换,通过建立跨图像的注意力机制和利用噪声编码或模型内部表示来提高输出图像质量,实现了零训练的目标。
- 媒体机构对公众人物的潜在观点的描述
媒体机构报道公众人物时,常常受到自身世界观的影响,从而带有个人偏见。本研究提出了一种零 - shot 方法,用 GPT-2 从语料库中生成非抽取式或生成式的人物实体描述,以更好地理解和解释新闻故事。
- ACL多单帽编码:用于零 - shot 多语言视觉字幕的自动编码提示
多场景和多语言的视觉描述生成中,我们提出了一种简单而有效的零样本方法 MultiCapCLIP,它可以在不需要标注视觉 - 描述对的情况下,为不同的场景和语言生成视觉描述,并且在四个基准测试和四种语言上得到了相对于最先进的零样本和弱监督方法 - OpenMask3D: 开放式词汇的三维实例分割
本研究介绍了一种开放词汇的 3D 实例分割任务,使用零样本学习来提高模型在目标实例分割方面的泛化性,并设计了 OpenMask3D 方法,该方法使用预测的类别不可知的 3D 实例掩码来聚合每个掩码的特征,通过多视图融合和基于 CLIP 的图 - 零射 3D 形状对应
本文提出一种新颖的零样本方法,用于计算 3D 模型之间的对应关系,特别是针对具有很强差异性和不同类别之间匹配的问题,并在零样本情况下使用 language-vision model 方法进行分类,使用 ChatGPT 生成语义映射,并使用 - 基于匹配样例的下句预测(MeNSP):科学教育自动评分的零样本提示学习
本研究开发了零样本学生答案自动评分方法 MeNSP,该方法采用预训练语言模型,无需人工标注样本即可实现自动评分,可显著降低模型训练成本。研究发现,该方法可以在科学教育中实现学生答案的自动评分,可以受益于低风险课堂评估实践,并建议在未来的研究 - CVPROpenScene: 利用开放式词汇的 3D 场景理解
使用 OpenScene 和 zero-shot 方法,借助于 CLIP 特征空间将 3D 场景中的点嵌入到文本和图像像素中,以达到不确定性的训练和开放词汇量的查询场景的目的。