评估 A3DS 图像描述程序的语用能力

ACLMay, 2023

评估 A3DS 图像描述程序的语用能力

Evaluating Pragmatic Abilities of Image Captioners on A3DS

Polina Tsvilodub, Michael Franke

TL;DR通过使用我们新开发的开源图像 - 文本数据集 “注释的 3D 形状” 来评估一个任务中性的图像描述模型的语用能力，我们发现该模型在开发对比性标题方面具有类似于人类的模式（信息量，简洁性和过度信息性）。

Abstract

Evaluating grounded neural language model performance with respect to pragmatic qualities like the trade off between truthfulness, contrastivity and overinformativity of generated utterances remains a challenge i

grounded neural language model pragmatic qualities open source image-text dataset multi-agent communication contrastive features

发现论文，激发创造

卫星字幕：大规模语言模型助力标注

通过使用遥感图像领域的 RSICD 数据集中提供的字幕，本文旨在解决字幕数据集中可能存在的信息和沟通缺陷问题，并通过进行 ChatGPT 语法纠正来增加字幕模型的性能准确性。

Dec, 2023

自然语言描述生成高保真 3D 人脸

本研究提出了一种基于自然语言描述生成高质量三维人脸模型的方法，通过建立 Describe3D 数据集以及使用两阶段框架来解决描述语言空间与形状 / 外观空间映射关系的问题，并且实验结果表明，该方法可以以比以往更高的精度和质量生成符合输入描述的三维人脸。

May, 2023

三维物体语言基础

本文介绍了一个新的推理任务，旨在针对三维对象的视觉和非视觉语言，并介绍了用于区分对象的几种 CLIP 模型。虽然最近在联合建模视觉和语言方面取得了进展，但这些基于图像的模型仍然对对象的三维性质了解不足，此文发现，将视图估计添加到语言引理模型可以提高准确性。

Jul, 2021

PLA: 基于自然语言的开放词汇三维场景理解

通过对具有语义丰富标题的多视图图像进行记录，来设计分层三维标题对，使用对比学习，学习与图像相连的语言感知嵌入，并在开放词汇语义和实例分割方面表现出卓越的性能，具有鲁棒的可迁移性。

Nov, 2022

使用基于字符级别推理的实用信息化图像字幕生成

本文提出了一种将神经图像字幕生成器与 Rational Speech Acts（RSA）模型相结合的系统，其核心目标是生成不仅真实而且能够将其输入与类似图像区分开的字幕。通过在字幕展开期间实现一种基于字符（“a”，“b”，“c”…）的 RSA 版本来解决以前的计算效率问题，同时提出了一种自动测试质询演讲者模型性能的方法，并表明我们的模型优于非语用基线，以及单词级 RSA 字幕生成器。

Apr, 2018

HL 数据集：将高层语言概念与视觉相结合

本文介绍一个新的高级数据集（High-Level Dataset），可以拓展经典 COOC 数据集，使得机器学习模型更好地理解抽象概念，并进一步提升模型的多模态融合能力。

Feb, 2023

带有预训练模型的可扩展三维标题生成

Cap3D 是一种自动生成三维物体描述的方法，利用图像字幕、图像文本对齐和 LLM 的预训练模型，从多个视角的 3D 资源中整合标题，既提高了效率又降低了成本，并在大规模 3D 数据集 Objaverse 上实现了 660k 3D 文本对。通过有效的提示工程，Cap3D 在 ABO 数据集的 17k 个收集的注释中产生几何描述并与人类表现不相上下。在 Cap3D 和人类字幕上调整 Text-to-3D 模型，并展示 Cap3D 优于 Point-E、Shape-E 和 DreamFusion，是一项值得关注的自动化方法。

Jun, 2023

Egoshots，自我视角记录生活数据集和语义保真度量，用于评估图像字幕模型中的多样性

本文介绍用于图像字幕生成的数据集 Egoshots，并使用现有的预训练图像字幕和对象识别网络对其进行注释，展示现有作品的局限性；此外，还提出了一种新的图像字幕度量标准 SF，可以在没有注释的情况下评估生成的标题，使其对实际生活中产生的标题非常有用。

Mar, 2020

从自然语言生成三维人体姿态的 PoseScript

本文提出了 PoseScript 数据集，该数据集对 AMASS 的几千个 3D 人体姿势与丰富的人体注释描述进行了配对。我们提出了一种详细的字幕生成过程，通过一组简单但通用的规则从给定的 3D 关键点提取低级姿势信息 —— 姿势码，然后使用句法规则将姿势码组合成更高级别的文本描述。自动注释大大增加了可用数据量，并使得在人类字幕微调预训练的深度模型上变得可能。

Oct, 2022

利用丰富的词汇基础实现文本到三维场景生成

该论文介绍了如何使用自然语言描述来学习将文本场景映射到三维几何表示中的方法，并且使用基于规则的方法来生成三维场景的方法得到了改进。他们还引入了一种自动化评估度量来评估生成的 3D 场景。

May, 2015