MuLVE, 多语言词汇评估数据集
通过新的 Chinese Vision-Language Understanding Evaluation (CVLUE) 基准数据集,揭示了现有的中文视觉 - 语言模型在中文文化方面的性能差距,并发现在中国文化方面缺乏知识。此外,通过在中文相关视觉 - 语言数据集上进行微调,有效提升了视觉 - 语言模型对中国文化的理解。
Jul, 2024
本研究介绍了一个名为 VLUE 的视觉语言理解评估基准,可用于评估 VLP 模型的泛化能力和效率 - 性能权衡。该基准显示了所有 VLP 模型在处理来自更多文化领域且未在预训练中出现的图像时存在较大的泛化差距,并且衡量 VLP 模型的效率 - 性能权衡可为设计选择提供有益见解。
May, 2022
为了评估新的自然语言理解模型在一系列任务上的表现,我们引入了第一个越南语语言理解评估(VLUE)基准,涵盖了五个不同的 NLU 任务,包括文本分类、跨度提取和自然语言理解。我们评估了七个最先进的预训练模型在我们提出的 VLUE 基准上的表现,包括多语言和越南语单语模型,并提出了 CafeBERT,一个在 VLUE 基准中所有任务上都取得优秀结果的最新预训练模型。
Mar, 2024
本文提出了一种模块化的方法,通过学习单一的共享多模态通用语言嵌入(MULE)来支持多种语言,其在多语言图像 - 句子检索任务上的表现得到了证明。此外,我们还展示了机器翻译可以用于多语言学习中的数据增强,再结合 MULE,可以将单一语言的平均召回率提高多达 21.9%,特别是对于有限注释的语言。
Sep, 2019
本研究通过 VALUE 基准测试,探讨了基于多个数据集完成多个任务的视频与语言理解模型,重点考虑来源于多种视频类型,利用通过视频帧和相关字幕来分析视频文本内容,以及学习多任务的视频与语言理解能力,进一步推动视频与语言理解技术的发展。
Jun, 2021
本研究介绍了 ViLLM-Eval,一个综合评估套件,用于衡量基于越南语背景下的基础模型的高级知识和推理能力,通过多项选择题和预测下一个单词的任务,评估了最先进的大语言模型在 ViLLM-Eval 上的表现,揭示了这些模型在理解和应对越南语任务方面仍有待改进的空间,该套件将有助于发现基础模型的关键优势和劣势,最终促进其发展并提升在越南用户中的性能。
Apr, 2024
我们发布了 TMMLU+,这是一个为传统中文大规模多任务语言理解数据集而设计的全面数据集。TMMLU + 是一个多项选择问答数据集,包括 66 个从初级到专业水平的学科。与其前身 TMMLU 相比,TMMLU + 的规模增加了六倍,学科分布更加平衡。我们在 TMMLU + 中包含了来自闭源模型和 24 个开源的中文大型语言模型的基准结果,这些模型的参数范围从 1.8B 到 72B 不等。我们的研究发现,传统中文模型仍然落后于其简体中文模型。此外,目前的大型语言模型在平均分上仍未超越人类表现。我们公开发布了我们的数据集和相应的基准源代码。
Mar, 2024
本文介绍了 WorldValuesBench,这是一个全球多元化的大规模基准数据集,用于多元文化价值预测任务,要求模型基于人口统计上下文生成对价值问题的评分回答。该数据集源自一个有影响力的社会科学项目 World Values Survey(WVS),从全球 94728 名参与者那里收集了数百个价值问题(例如社会、经济、伦理学)。我们从 WVS 的回答中构建了超过 2000 万个 “(人口统计属性,价值问题) → 回答” 的例子。我们使用这个数据集进行了案例研究,并表明这个任务对于强大的开源和闭源模型来说是具有挑战性的。在仅 11.1%、25.0%、72.2% 和 75.0% 的问题上,Alpaca-7B、Vicuna-7B-v1.5、Mixtral-8x7B-Instruct-v0.1 和 GPT-3.5 Turbo 分别可以实现与人类归一化答案分布的 Wasserstein 1 距离小于 0.2。WorldValuesBench 为研究语言模型中的多元文化价值意识的局限性和机遇开辟了新的研究领域。
Apr, 2024
本研究介绍了包含 51 种语言、18 种领域、60 个意图和 55 个插槽的 100 万个标注虚拟助手话语的 MASSIVE 数据集,并给出了用于其上的 XLM-R 和 mT5 模型的实验结果。
Apr, 2022