Apr, 2024

HYPE: 超伪定型图像与文本的包含性过滤

TL;DR本研究介绍了一种名为 HYPerbolic Entailment filtering (HYPE) 的新方法,利用超伸缩嵌入和蕴含锥的概念,精确提取具有明确语义的图像 - 文本对数据集,以增强数据样本的特异性。HYPE 在数据筛选效率方面取得了显著的改进,并在与现有筛选技术相结合时创下了 DataComp 基准的最新记录。该研究突破了数据选择过程的潜力,为更准确高效的自监督学习模型的发展做出了贡献。