Oct, 2024

汉字视觉信息的影响:评估大型模型识别和利用偏旁的能力

TL;DR本研究探讨了当代大型语言模型(LLMs)和视觉语言模型(VLMs)在汉字中识别和利用偏旁等视觉信息的能力,填补了这一领域的研究空白。通过建立基准,我们发现模型在理解汉字的视觉元素方面存在一定知识,但仍然有限,并且在将偏旁信息融入提示时,模型在词性标注任务中的表现显著提升,显示了整合子字符信息的潜力。