Apr, 2023

双曲线图像 - 文本表示

TL;DR我们提出了 MERU,这是一种对图像和文本进行对比训练的模型,可以生成超几何表示。与当前的视觉语言模型相比,MERU 可以更好地捕获图像和文本之间的层次结构关系。我们的实验结果表明,MERU 可以同时兼顾分类和检索任务的性能,同时提供高度可解释性的表示空间。