大型语言模型也能分享图片！

Oct, 2023

Large Language Models can Share Images, Too!

Young-Jun Lee, Jonghwan Hyeon, Ho-Jin Choi

TL;DR该研究探讨了大型语言模型（LLMs），如 InstructGPT，ChatGPT 和 GPT-4，在零样本设置中的图像共享能力，提出了一个两阶段框架，使 LLMs 能够预测潜在的图像共享转向并生成相关的图像描述，通过广泛的实验证明了 GPT-4 在零样本提示下实现了最佳性能，此外，我们发现了零样本提示中的紧密共享能力，证明了我们框架的两个阶段中基于限制的提示的有效性。基于该框架，我们利用 Stable Diffusion 在预测的转向处生成图像，即 PhotoChat ++，据我们所知，这是第一项在没有视觉基础模型的零样本设置中评估 LLMs 图像共享能力的研究。发表后将发布源代码和数据集。

Abstract

This paper explores the image-sharing capability of large language models (LLMs), such as InstructGPT, ChatGPT, and GPT-4, in a zero-shot setting

large language models image-sharing capability zero-shot setting two-stage framework restriction-based prompts

发现论文，激发创造

零样本分类中的提示复杂度导航：计算社会科学中大型语言模型的研究

在计算社会科学分类任务中，评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果，并研究了各种提示策略的影响。发现在零次设置下，当前 LLMs 无法与较小的经过微调的基线变压器模型（如 BERT）的性能匹配。此外，发现不同的提示策略可以显着影响分类准确性，准确性和 F1 分数的差异超过 10％。

May, 2023

大型语言模型的零样本文本分类器

利用零样本学习采用递进性思维提示，与传统的问答格式相比，GPT 模型在文本分类问题上具备零样本分类器的能力，有效地利用提示策略在各种文本分类场景中展现出较好的性能。

Dec, 2023

探究大型语言模型在代码克隆检测中的有效性

我们研究了大型语言模型在非生成性任务中的应用，以代码克隆检测为例，通过使用基于提示的模式，ChatGPT 在跨语言代码克隆检测中表现出色，并且在单语言代码克隆检测方面与完全微调的模型的性能相当，同时，提示和问题的难度水平对 ChatGPT 的性能有影响。

Jan, 2024

视觉增强零样本图像分类的多模态大语言模型

使用多模态大语言模型 (Multimodal LLMs) 的简单且有效方法实现了零样本图像分类，通过生成全面的文本表示从而在交叉模态嵌入空间中生成固定维度特征，在线性分类器上融合这些特征以进行分类，取得了令人瞩目的效果。

May, 2024

GPT4Tools: 通过自我学习教授大型语言模型使用工具

本文提出了一种名为 GPT4Tools 的方法，利用自我指导生成指令遵循的数据集，并利用 LoRA 优化，使开源 LLMs 解决一系列视觉问题，如视觉理解和图像生成。经过广泛实验，表明该方法不仅显著提高了调用已知工具的准确性，而且还使得未知工具具有零 - shot 能力。

May, 2023

大型语言模型是零样本推理器

该研究发现预训练的大型语言模型可以成为良好的零样本推理器，提出了一种零样本的 CoT 方法，将其用于多种复杂的推理任务并取得了显著的性能提升。

May, 2022

大型语言模型是低样本图像分类的良好触发器学习者

通过整合大型语言模型（LLMs）提升预训练视觉 - 语言模型（VL）在低样本图像分类中的能力，提出了大型语言模型作为提示学习者（LLaMP）的方法，并在 11 个数据集上的零样本和小样本图像分类任务中取得了更好的性能。

Dec, 2023

从图像到文本提示：使用 Frozen 大语言模型进行零样本 VQA

提出了 Img2Prompt 模块，它可以提供可以描述图像内容和自构建问题答案对的提示，并且能够帮助 LLMs 执行无需端到端训练的零射击 VQA 任务。

Dec, 2022

大型语言模型作为一致的故事可视化器

StoryGPT-V 使用潜在扩散和大语言模型的优点，生成具有一致且高质量角色的图像，通过解决指代消解和对上下文的理解来提高生成准确性和忠实度。模型在视觉故事可视化上表现优异，并具有较低的内存消耗。

Dec, 2023

使用预训练大型语言模型的零样本垃圾邮件分类

该研究探讨了使用零 - shot 提示的预训练大语言模型（LLMs）在垃圾邮件分类中的应用。通过对著名的 SpamAssassin 数据集进行评估，我们评估了开源模型（Flan-T5）和专有模型（ChatGPT，GPT-4）的性能。我们探讨了两种分类方法：（1）仅使用邮件主题和正文的截断原始内容，（2）基于 ChatGPT 生成的摘要进行分类。基于整个数据集的经验分析结果表明，Flan-T5 在截断内容方法上的 F1 得分为 90％，而 GPT-4 使用摘要则达到 95％的 F1 得分。尽管这些初步发现表明 LLMs 子任务（例如摘要和分类）的分类管道具有潜力，但仍需要在各种数据集上进行进一步验证。专有模型的高运营成本，以及 LLMs 的一般推断成本，可能会显著阻碍垃圾邮件过滤的实际部署。

May, 2024