Apr, 2024

Heron-Bench: 评估日语视觉语言模型的基准

TL;DR为了解决日语 VLMs(Vision Language Models)的开发和评估中存在的问题,我们引入了一个新的基准测试集,日本 Heron-Bench,用于评估 VLMs 的日语能力。我们还提供了一个基准日语 VLM,它使用了经过日语视觉指导调优的数据集进行训练。通过我们的 Heron-Bench,我们揭示了提出的 VLM 在各种能力维度上的优势和局限性,并明确了像 GPT-4V 这样的强封闭模型与基准模型之间的能力差距,为未来的研究提供了宝贵的见解。为了促进日语 VLM 研究的进一步发展,我们公开发布了基准数据集和训练代码。