- CLIP 的零射类别视觉分类的内部模态代理学习
通过使用文本数据的代理标签帮助直接学习图像数据的代理标签,并利用相应的分析方法进一步提炼这些标签,以改善视觉任务中的零 - shot 分类准确率。
- 自我专业化:揭示大型语言模型中的潜在专长
通过自我对齐可以在专业领域中提高零样本和小样本性能,利用特定领域的无标签数据和一些标记的种子进行自我特化,有效地从预训练大型语言模型中提取出专家模型。
- AutoCLIP:为视觉 - 语言模型自动调优的零样本分类器
AutoCLIP 是一种自动调整零样本分类器的方法,通过根据推理时间的类描述符 - 图像相似性统计导出每个图像的每个提示模板的权重,并展示在广泛的视觉语言模型、数据集和提示模板中,AutoCLIP 始终稳定地优于基线,并提高了多达 3 百分 - 探索大型语言模型进行本体对齐
研究调查了最近的生成式大型语言模型(如 GPT 系列和 Flan-T5)在本体对齐中的适用性,以识别本体之间的概念等价映射。初步发现表明,通过精心设计的框架和提示,LLMs 具有超越现有本体对齐系统(如 BERTMap)的潜力。
- 通过引导裁剪实现零样本视觉分类
我们提出了 GC-CLIP,通过在预处理步骤中使用现成的零样本目标检测模型,增加零样本分类器对感兴趣目标的关注,并减少无关图像区域的影响,从而提高了零样本分类结果。
- 大型语言模型中的指导位置在序列生成中的作用
通过改变任务指令在输入句子之后的位置,我们提出了一种增强大型语言模型的指令遵循功能的方法,该方法可以显著改善条件序列生成的零样本性能。
- 大规模持续预训练用于零样本和少样本的文档问答
本文提出了用于文档问答任务的 Docprompt 模型,具有强大的零样本和少样本性能。通过提出一种新的弱监督数据生成方法、新的多阶段训练方法和新的理解模型与生成模型集成方法,实验证明在文档问答任务上继续预训练后的 Docprompt 模型明 - KDD以火攻火:ChatGPT 能否检测生成的人工智能文本?
研究中探讨了 ChatGPT 作为 AI 生成文本检测器的性能,通过评估它在人工编写与 AI 生成文本检测任务上的零样本表现,并对公开可用的数据集进行实验。结果发现 ChatGPT 以及类似的大型语言模型可在自动化检测流程中发挥作用,通过专 - Camoscio:意大利指令调优的 LLaMA
通过使用 LoRA 和 ChatGPT 翻译的指令提示的语料库,我们精调了最小的变体 LLaMA(7b),在意大利语中为用户的提示引入了专门定制的语言模型 Camoscio。结果表明,该模型在多个意大利语下游任务中的零 - shot 性能与 - 使用目标领域描述的密集检索适应
该研究介绍了信息检索领域中一个新的领域适应类别,提出了一种基于分类的领域属性描述和自动数据构建方法以改善检索模型在目标领域的性能。
- 任意物体的分割及其点追踪
本文介绍了 SAM-PT 方法,将 SAM 方法扩展至跟踪和分段动态视频中的任何内容,利用强健的和稀疏的点选择和传播技术进行 mask 的生成,并在 DAVIS、YouTube-VOS 和 MOSE 等流行的视频对象分割基准中展示 SAM - 基于不相交监督的密集视频目标字幕生成
我们提出了一种针对密集视频对象字幕的新任务和模型 - 检测、跟踪和说明视频中所有对象的轨迹。
- LOVM: 语言优先视觉模型选择
本研究提出了一种热门研究课题,即如何对多模态视觉 - 语言模型进行选择和预测,并利用新的基准测试 LOVM 来进行考核评估。
- UniBoost: 无监督单模态预训练来提升零样本视觉语言任务能力
使用大规模非监督单模型预训练可以提高图像 - 文本匹配的零样本性能和模型理解图像和文本关系的能力
- 识别任何事物:一款强大的图像标记模型
通过无需注释的图像标记,自动文本语义解析和数据引擎等四个关键步骤,我们构建了一种名为 “Recognize Anything Model(RAM)” 的强基础模型,用于图像标记,并在许多基准测试中评估其标记能力。
- 零样本分类中的提示复杂度导航:计算社会科学中大型语言模型的研究
在计算社会科学分类任务中,评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果,并研究了各种提示策略的影响。发现在零次设置下,当前 LLMs 无法与较小的经过微调的基线变压器模型(如 BERT)的性能 - SGP-TOD: 通过模式引导的 LLM 提示轻松构建任务机器人
该研究提出了 SGP-TOD—— 基于大型语言模型的模式引导对话系统,可以在不使用任何特定任务数据的情况下,生成适当的回应,具有零 - shot 性能,并且能够通过添加附加模式规则轻松适应新功能。
- LMEye:用于大型语言模型的交互式感知网络
本文提出了一种名为 LMEye 的交互感知网络,旨在提高 Large Visual Language Model 的图像理解精度。LMEye 网络包括一个静态视觉映射网络和一些负责获取请求、分解图像特征和传输交错信息的线性层。通过在多模态问 - 使用 ChatGPT 进行实体匹配
本文探讨使用 ChatGPT 作为传统 Transformer 模型的更健壮、训练数据更有效的替代方法,对实体匹配任务进行实验,证明 ChatGPT 表现竞争力与经过 fine-tuned 的 RoBERTa 模型相当,达到 83%的 F1 - 动词在行动:提高视频语言模型中动词理解能力
本研究提出了一个新的以动词为中心对比学习(Verb-Focused Contrastive,VFC)框架,以改善基于 CLIP 的视频语言模型的动词理解。该方法采用预训练的大型语言模型(LLMs)创建难样本进行跨模态对比学习,以及实施细粒度