VLUE: 一个评估视觉语言模型的多任务基准

ICMLMay, 2022

VLUE: 一个评估视觉语言模型的多任务基准

VLUE: A Multi-Task Benchmark for Evaluating Vision-Language Models

Wangchunshu Zhou, Yan Zeng, Shizhe Diao, Xinsong Zhang

TL;DR本研究介绍了一个名为 VLUE 的视觉语言理解评估基准，可用于评估 VLP 模型的泛化能力和效率 - 性能权衡。该基准显示了所有 VLP 模型在处理来自更多文化领域且未在预训练中出现的图像时存在较大的泛化差距，并且衡量 VLP 模型的效率 - 性能权衡可为设计选择提供有益见解。

Abstract

Recent advances in vision-language pre-training (VLP) have demonstrated impressive performance in a range of vision-language (VL) tasks. However, there exist several challenges for measuring the community's progress in building general →

vision-language pre-training multi-modal intelligence efficiency-performance trade-off generalization capabilities vlue benchmark

发现论文，激发创造

VLUE：越南自然语言理解的新基准和多任务知识迁移学习

为了评估新的自然语言理解模型在一系列任务上的表现，我们引入了第一个越南语语言理解评估（VLUE）基准，涵盖了五个不同的 NLU 任务，包括文本分类、跨度提取和自然语言理解。我们评估了七个最先进的预训练模型在我们提出的 VLUE 基准上的表现，包括多语言和越南语单语模型，并提出了 CafeBERT，一个在 VLUE 基准中所有任务上都取得优秀结果的最新预训练模型。

Mar, 2024

CVLUE：一个新的面向中文视觉语言理解评估的基准数据集

通过新的 Chinese Vision-Language Understanding Evaluation (CVLUE) 基准数据集，揭示了现有的中文视觉 - 语言模型在中文文化方面的性能差距，并发现在中国文化方面缺乏知识。此外，通过在中文相关视觉 - 语言数据集上进行微调，有效提升了视觉 - 语言模型对中国文化的理解。

Jul, 2024

VALSE: 基于语言现象的视觉和语言模型任务无关基准

提出了 VALSE（Vision And Language Structured Evaluation）机制，用于对通用预训练视觉和语言模型的视觉和语言关联能力进行有针对性的测试，包括六个测试套件，检测多种语言结构，为一种语言学评估的基准模型。已通过评估五种广泛使用的模型来构建 VALSE，实验结果表明，许多模型难以处理大多数现象。

Dec, 2021

VALUE：一个视频和语言理解评估的多任务基准

本研究通过 VALUE 基准测试，探讨了基于多个数据集完成多个任务的视频与语言理解模型，重点考虑来源于多种视频类型，利用通过视频帧和相关字幕来分析视频文本内容，以及学习多任务的视频与语言理解能力，进一步推动视频与语言理解技术的发展。

Jun, 2021

VL-CheckList：使用对象、属性和关系评估预训练的视觉语言模型

介绍了一种名为 VL-CheckList 的框架来评估 VLP 模型的能力，进而分析了七种热门 VLP 模型的优劣之处，并提出了构建更好的 VLP 模型的研究方向。

Jul, 2022

VLP：视觉语言预训练综述

本文调查了最近关于视觉 - 语言预训练 (VLP) 的进展和新前沿。这是第一篇关注 VLP 的综述文章，并对 VLP 模型做了具体总结，旨在为 VLP 领域的未来研究提供启示。

Feb, 2022

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

SLUE: 自然语音口语理解评估新基准任务

创建适用于口语理解评估的基准任务套件，其中包括命名实体识别、情感分析和语音识别，用于跟踪进展，评估预先训练的表示形式，研究管道与端到端方法的效用。

Nov, 2021

视觉 - 语言智能：任务、表示学习与大模型

这篇论文从时间的角度对视觉语言智能进行了全面的调研，总结了三个时期的发展，包括特定任务方法，视觉 - 语言预训练方法和通过大规模弱标签数据增强的更大模型，并讨论了未来的发展趋势.

Mar, 2022

视觉 - 语言模型的不确定性感知评估

提出了一种利用置信度量化的方式评估视觉 - 语言模型，研究发现模型的不确定性与准确性存在相关性。

Feb, 2024