Oct, 2024
大规模网络视觉实体识别:一种基于大语言模型的数据方法
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach
TL;DR本研究解决了大规模视觉实体识别中由于缺乏干净大规模训练数据所带来的问题。通过利用多模态大语言模型(LLM)来进行标签验证、元数据生成和理据说明,我们提出了一种新方法来策划数据集。实验结果表明,基于这一自动策划的数据训练的模型在视觉实体识别任务上表现出色,明显提高了性能,强调了高质量训练数据的重要性。