BriefGPT.xyz
Ask
alpha
关键词
image and text encoders
搜索结果 - 2
CLIP4STR: 使用预训练视觉语言模型的场景文本识别的简单基线
介绍了 CLIP4STR,一种基于 CLIP 的简单而有效的场景文字识别方法,通过图像和文本编码器构建,具有双预测和精炼解码机制。实验表明,该方法在 11 个 STR 基准测试中达到了最新的最佳性能。
PDF
a year ago
跨模式食谱检索的分治策略:从最近邻基线到最佳表现
我们提出了一种新颖的非参数方法,用于跨模式菜谱检索,结合图像和文本嵌入,通过将我们的方法与用自监督分类目标独立训练的标准方法相结合,我们创建了一个基准模型,在挑战性的图像到菜谱任务上优于大多数现有方法。我们还使用我们的方法比较使用不同现代方
→
PDF
5 years ago
Prev
Next