关键词open-vocabulary vision-language models
搜索结果 - 2
- ACL视觉 - 语言模型是否理解复合名词?
开放词汇视觉 - 语言模型(VLMs)如 CLIP 是一种有前景的文本到图像检索方法,然而,对于复合名词(CN)是否能像对待名词一样理解得好呢?本研究构建了 Compun 基准测试以评估 VLMs 在解释 CNs 方面的有效性,并深入分析了 - OCTO+: 用于混合现实中自动开放词汇对象放置的套件
通过多方面评估,我们发现一种新的最先进方法 OCTO+ 可以在超过 70% 的时间内将对象放置在有效的区域中,该方法使用了最新的开放词汇语言模型在增强现实中实现自动对象放置的多种方法,并引入了用于自动评估虚拟对象放置的基准,减少了费用昂贵的