ICLRJan, 2024

用大型语言模型实现细粒度视觉识别的民主化

TL;DR使用大型语言模型作为代理,FineR 在语义细分类别推理方面体现出更好性能,优于几种先进的 FGVR 和语音与视觉助手模型,并展示了在野外和新领域中工作的潜力。