Egoshots，自我视角记录生活数据集和语义保真度量，用于评估图像字幕模型中的多样性

ICLRMar, 2020

Egoshots，自我视角记录生活数据集和语义保真度量，用于评估图像字幕模型中的多样性

Egoshots, an ego-vision life-logging dataset and semantic fidelity metric to evaluate diversity in image captioning models

PDF

Pranav Agarwal, Alejandro Betancourt, Vana Panagiotou, Natalia Díaz-Rodríguez

TL;DR本文介绍用于图像字幕生成的数据集 Egoshots，并使用现有的预训练图像字幕和对象识别网络对其进行注释，展示现有作品的局限性；此外，还提出了一种新的图像字幕度量标准 SF，可以在没有注释的情况下评估生成的标题，使其对实际生活中产生的标题非常有用。

Abstract

image captioning models have been able to generate grammatically correct and human understandable sentences. However most of the captions convey limited information as the model used is trained on datasets that do not caption all possible objects existing in everyday life. Due to this

image captioning object recognition dataset creation semantic fidelity real life images

发现论文，激发创造

基于语义的生成式文本到图像合成的准确性

提出一种利用物体检测和新的评估指标 SOA 的文本图像生成模型，并通过用户研究和定量评估表明，明确建模物体的模型优于仅建模全局图像特征，并且使用 SOA 指标可以更精确地衡量生成图像与图像描述的一致性。

Oct, 2019

关于图像标注中的多样性：如何像人类一样描述

本文提出了一种新的度量图像标题多样性的指标，并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量，结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距，并且优化准确度（CIDEr）的模型的多样性很低，同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。

Mar, 2019

大规模的新物体字幕生成

研究了如何从其他数据源中学习视觉概念，并创建了一个大规模的基准来评估新图像说明模型可以从中获得这些视觉概念的能力。

Dec, 2018

卫星字幕：大规模语言模型助力标注

通过使用遥感图像领域的 RSICD 数据集中提供的字幕，本文旨在解决字幕数据集中可能存在的信息和沟通缺陷问题，并通过进行 ChatGPT 语法纠正来增加字幕模型的性能准确性。

Dec, 2023

COSMic: 一个针对图像描述的一致性感知生成度量

本研究提出了一种基于计算话语理论的生成度量，用于评估图像描述生成模型的语义和语用成功，与最近提出的学习指标相比，在人类评分预测方面表现更好。

Sep, 2021

使用多样物体标注的图片字幕生成

本文提出了 Novel Object Captioner (NOC) 模型，利用外部数据源和语义嵌入使模型适用于不在现有图像字幕数据集中出现的数百种物体分类，并表现出对现有罕见分类的能力，自动评估和人类判断均表明，该模型在描述物体方面比之前的工作表现更好。

Jun, 2016

基于排序和 LLM 融合的图像标注描述性改进

本文提出了一种将 SoTA 模型生成的不同字幕进行有效融合的新方法，通过使用图像文本度量来排名模型生成的字幕，然后使用大语言模型（LLM）融合前两个字幕，实验结果表明，我们的方法可以增强字幕的质量和吸引力，缩小了自动化系统与人类生成的描述之间的差距，并开辟了为视觉 - 语言和字幕模型生成更适宜的字幕的新可能性。

Jun, 2023

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

在 3D 环境中探索与描述：基于身体感知的视觉字幕生成

当前的视觉说明模型假设图像是完整呈现场景的完美捕捉，然而在真实世界场景中一个图像可能没有提供良好的视角，从而限制了对细粒度场景的理解。为了克服这一限制，我们提出了一项名为 “实体说明” 的新任务，将视觉说明模型与导航能力相结合，使其能够主动探索场景，并减少来自次优视角的视觉模糊。我们构建了一个包含 10K 个混乱物体的 3D 场景和每个场景三个注释段落的 ET-Cap 数据集，以支持该任务。我们提出了一个级联实体说明模型（CaBOT），它由导航器和说明器组成，用于处理这个任务。广泛的实验证明我们的模型优于其他精心设计的基线模型。我们的数据集、代码和模型可在此链接获得。

Aug, 2023

评估 A3DS 图像描述程序的语用能力

通过使用我们新开发的开源图像 - 文本数据集 “注释的 3D 形状” 来评估一个任务中性的图像描述模型的语用能力，我们发现该模型在开发对比性标题方面具有类似于人类的模式（信息量，简洁性和过度信息性）。

May, 2023