Jun, 2024
评估视觉和文化解读: K-Viscuit 基准测试与人机合作
Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration
Yujin Baek, ChaeHun Park, Jaeseok Kim, Yu-Jung Heo, Du-Seong Chang...
TL;DR通过半自动化流程,并结合外部知识检索,构建了适应韩国文化的数据集,从而有效评估了文化相关的视觉 - 语言模型,结果显示开源模型在理解韩国文化方面明显落后于专有模型,并提供了各种文化方面的 VLM 性能分析和未来改进方向的建议。