VLUE: 一个评估视觉语言模型的多任务基准
为了评估新的自然语言理解模型在一系列任务上的表现,我们引入了第一个越南语语言理解评估(VLUE)基准,涵盖了五个不同的 NLU 任务,包括文本分类、跨度提取和自然语言理解。我们评估了七个最先进的预训练模型在我们提出的 VLUE 基准上的表现,包括多语言和越南语单语模型,并提出了 CafeBERT,一个在 VLUE 基准中所有任务上都取得优秀结果的最新预训练模型。
Mar, 2024
通过新的 Chinese Vision-Language Understanding Evaluation (CVLUE) 基准数据集,揭示了现有的中文视觉 - 语言模型在中文文化方面的性能差距,并发现在中国文化方面缺乏知识。此外,通过在中文相关视觉 - 语言数据集上进行微调,有效提升了视觉 - 语言模型对中国文化的理解。
Jul, 2024
提出了 VALSE(Vision And Language Structured Evaluation)机制,用于对通用预训练视觉和语言模型的视觉和语言关联能力进行有针对性的测试,包括六个测试套件,检测多种语言结构,为一种语言学评估的基准模型。已通过评估五种广泛使用的模型来构建 VALSE,实验结果表明,许多模型难以处理大多数现象。
Dec, 2021
本研究通过 VALUE 基准测试,探讨了基于多个数据集完成多个任务的视频与语言理解模型,重点考虑来源于多种视频类型,利用通过视频帧和相关字幕来分析视频文本内容,以及学习多任务的视频与语言理解能力,进一步推动视频与语言理解技术的发展。
Jun, 2021
介绍了一种名为 VL-CheckList 的框架来评估 VLP 模型的能力,进而分析了七种热门 VLP 模型的优劣之处,并提出了构建更好的 VLP 模型的研究方向。
Jul, 2022
本文调查了最近关于视觉 - 语言预训练 (VLP) 的进展和新前沿。这是第一篇关注 VLP 的综述文章,并对 VLP 模型做了具体总结,旨在为 VLP 领域的未来研究提供启示。
Feb, 2022
本文提出了一个统一的视觉语言预训练模型,采用共享的多层 Transformer 网络进行编码和解码,通过两个任务的无监督学习目标对大量的图像文本对进行预训练,使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。
Sep, 2019
创建适用于口语理解评估的基准任务套件,其中包括命名实体识别、情感分析和语音识别,用于跟踪进展,评估预先训练的表示形式,研究管道与端到端方法的效用。
Nov, 2021
这篇论文从时间的角度对视觉语言智能进行了全面的调研,总结了三个时期的发展,包括特定任务方法,视觉 - 语言预训练方法和通过大规模弱标签数据增强的更大模型,并讨论了未来的发展趋势.
Mar, 2022