Polos: 从人类反馈中进行多模态度量学习用于图像字幕生成

CVPRFeb, 2024

Polos: 从人类反馈中进行多模态度量学习用于图像字幕生成

Polos: Multimodal Metric Learning from Human Feedback for Image Captioning

Yuiga Wada, Kanta Kaneda, Daichi Saito, Komei Sugiura

TL;DR提出了一种基于人类反馈训练的 Polos 的自动评估度量标准用于图像字幕模型，该度量标准从多模态输入中计算得分，利用通过大规模对比学习训练的嵌入进行平行特征提取机制。通过在 Polis 数据集上取得的最新成果，证明了该方法具有效果和鲁棒性。

Abstract

Establishing an automatic evaluation metric that closely aligns with human judgments is essential for effectively developing image captioning models. Recent data-driven metrics have demonstrated a stronger correl

automatic evaluation metric image captioning models polos multimodal inputs human feedback

发现论文，激发创造

学习评估图像字幕生成

提出了一种基于学习的区分性评价指标，通过数据扩增方案显著提高了评价指标对病态构造的鲁棒性，并在 FLickr 8k 和 COCO 数据集上对其他指标表现良好。

Jun, 2018

图像字幕的透明人工评估

本文介绍了一种基于机器和人生成的 MSCOCO 数据集上的图像标注模型的评估协议 THumB，用于评估图像文本的质量。我们的实验发现，使用图像特征的近期度量值 CLIPScore 更符合人类评判标准。

Nov, 2021

COSMic: 一个针对图像描述的一致性感知生成度量

本研究提出了一种基于计算话语理论的生成度量，用于评估图像描述生成模型的语义和语用成功，与最近提出的学习指标相比，在人类评分预测方面表现更好。

Sep, 2021

关于图像标注中的多样性：如何像人类一样描述

本文提出了一种新的度量图像标题多样性的指标，并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量，结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距，并且优化准确度（CIDEr）的模型的多样性很低，同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。

Mar, 2019

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

多模态图像描述翻译中的基准

本文提供了一种使用视觉空间中的多模态支点改善图像描述的统计机器翻译方法。通过在一个用目标语言描述的图像数据库中执行图像检索，并使用最相似图像的描述进行跨语言重新排序，达到优化的效果。本方法不依赖于大量域内平行数据的可用性，而仅依赖于大量单语言字幕图像数据集的可用性，以及用于计算图像相似性的最先进的卷积神经网络。我们的实验评估显示，与强基线相比，我们的方法提高了 1 个 BLEU 分数。

Jan, 2016

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

正向增量对比学习在图像和视频字幕评估中的应用

提出了基于对比学习的图像标注评估指标 PAC-S，使用生成的图像和文本进一步统一了对比视觉 - 语义空间的学习，实验中表现最好，超过了 CIDEr、SPICE 和 CLIP-Score 等其他指标。

Mar, 2023

使用离线人类反馈加强图像字幕生成器

本文介绍了一种利用人力评分提高图像字幕模型的方法，通过策略梯度方法在离线强化学习框架下最大化人类评级作为奖励进行优化；实验结果表明该方法可以推广到之前未见过的图片集，具有较好的泛化性能。

Nov, 2019

无参考图像字幕评估指标的鲁棒性研究

评估了 CLIPScore 和 UMIC 这两种自动评估图像标题的参考无关度量标准的鲁棒性，发现这两个指标在识别标题中的微小差错方面存在一定困难，同时受视觉概念和语言结构的影响。

May, 2023