GPT-4 作为科学图注的有效零样学习评估器

EMNLPOct, 2023

GPT-4 作为科学图注的有效零样学习评估器

GPT-4 as an Effective Zero-Shot Evaluator for Scientific Figure Captions

Ting-Yao Hsu, Chieh-Yang Huang, Ryan Rossi, Sungchul Kim, C. Lee Giles...

TL;DR使用大型语言模型（LLMs）作为一种经济的、无需参考的方法来评估科学图的标题，通过与人类学术专家评估和其他模型评估相比较，GPT-4 在评估中表现出色，甚至超过了计算机科学与信息学本科生的评估结果。

Abstract

There is growing interest in systems that generate captions for scientific figures. However, assessing these systems output poses a significant challenge. Human evaluation requires academic expertise and is costl

figure captions large language models evaluation scientific figures academic expertise

发现论文，激发创造

GPT4Vis：GPT-4 能为零样本视觉识别做什么？

本研究对 GPT-4 在零样本视觉识别任务中的语言和视觉能力进行了评估，发现利用 GPT-4 生成丰富的文本描述明显提高了零样本识别性能，并且在视觉熟练度方面，GPT-4V 在 16 个基准数据集中表现介于 OpenAI-CLIP 的 ViT-L 和 EVA-CLIP 的 ViT-E 之间。

Nov, 2023

评估指标在 GPT-4 时代：可靠评估大型序列到序列任务上的语言模型

通过自动和人工评估，我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估，发现 ChatGPT 在大多数指标上始终优于其他流行模型，而使用经典的自动评估指标时，得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多，表明许多流行基准的质量较低。最后，我们发现 GPT-4 能够在特定任务的变异性较小的情况下，对模型输出进行排名，与人类判断趋于一致，但在语法错误纠正任务中的排名一致性较低。

Oct, 2023

检索增强型零样本视频字幕生成

该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法，通过使用多个关键模型来桥接视频和文本，并使用可学习的令牌来传递信息。在实验中，该方法在多个数据集上取得了与现有最先进方法相比的 4％至 20％的 CIDEr 主要评价指标的改进。

May, 2024

大型语言模型也能分享图片！

该研究探讨了大型语言模型（LLMs），如 InstructGPT，ChatGPT 和 GPT-4，在零样本设置中的图像共享能力，提出了一个两阶段框架，使 LLMs 能够预测潜在的图像共享转向并生成相关的图像描述，通过广泛的实验证明了 GPT-4 在零样本提示下实现了最佳性能，此外，我们发现了零样本提示中的紧密共享能力，证明了我们框架的两个阶段中基于限制的提示的有效性。基于该框架，我们利用 Stable Diffusion 在预测的转向处生成图像，即 PhotoChat ++，据我们所知，这是第一项在没有视觉基础模型的零样本设置中评估 LLMs 图像共享能力的研究。发表后将发布源代码和数据集。

Oct, 2023

基于进化伪标记的零样本视频字幕生成

本文提出了一种零样本视频字幕生成方法，采用了冻结的 GPT-2 语言模型和 CLIP 图像 - 文本匹配模型，并通过生成过程中的优化方法生成了连贯、具有广泛实际知识的视频字幕。

Jul, 2022

GPT-3 对零样本人格估计的系统评估

本文探讨了 GPT-3 在用户社交媒体帖子上对 Big 5 个性格特质的零样本估计能力，并发现其在粗分类上表现与现有的预训练模型相近，但在细粒度分类下表现不如常见类别基准，同时分析了 GPT-3 和预训练词汇模型表现较好和较差的领域，提出了改进 LNM 在人类级 NLP 任务上的建议。

Jun, 2023

GPTEval：利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估

使用大型语言模型和一种具有连续思考特点的填充范式，提出了一种 NLG 质量评估框架，结合两种生成任务 —— 文本摘要和对话生成，使用 GPT-4 模型作为骨干模型，与以往方法相比性能更好。

Mar, 2023

细节图像描述的基准测试与改进

图像标注长期以来一直被视为视觉理解的基本任务。最近，由于过时的短字幕基准和不可靠的评估指标，很少有大规模视觉 - 语言模型（LVLM）研究讨论模型的图像标注性能。本文提出了通过由人类专家注释的高质量评估数据集 GPT-4V 和 Gemini-1.5-Pro 来评估详细图像标注任务的基准。我们还设计了一种更可靠的字幕评估指标，称为 CAPTURE（通过提取和耦合核心信息进行字幕评估）。CAPTURE 从字幕中提取视觉元素（例如对象、属性和关系），然后通过三个阶段匹配这些元素，以实现与专家判断最高的一致性，超过其他基于规则或基于模型的字幕评估指标。所提出的基准和指标为 LVLM 的详细图像标注能力提供了可靠的评估。在此评估的指导下，我们通过一个五阶段的数据构建流程进一步探索释放 LVLM 的详细字幕能力。我们的流程只使用给定的 LVLM 本身和其他开源工具，没有任何人工或 GPT-4V 的注释。实验证明，所提出的数据构建策略显著提高了具有领先性能的 LVLM 生成的详细字幕数据的质量，并且在自我循环的范式中可以进一步提高数据质量。代码和数据集将在此 https URL 公开提供。

May, 2024

CLAIR: 使用大型语言模型评估图像标题

CLAIR 是一种新颖方法，利用大型语言模型（LLMs）的零 - shot 语言建模能力来评估候选图像标题，与现有方法相比，CLAIR 在与人类判断相符的标题质量方面表现出更强的相关性，能够清晰解读结果与其分配的分数背后的推理过程。

Oct, 2023

基于错误人工评估的 GPT-4 在句子简化中的深入评估

通过设计错误基础的人类注释框架来评估 GPT-4 在句子简化方面的能力，进一步深入了解大型语言模型的性能，同时确保评估的可靠性。该研究发现 GPT-4 相对于现有最先进的模型来说，普遍生成较少错误的简化输出，但在词汇转述方面仍然存在限制。此外，我们对广泛使用的自动评估指标进行了元评估，发现这些指标在评估 GPT-4 的高质量简化整体能力上缺乏足够的敏感性。

Mar, 2024