BriefGPT.xyz
Ask
alpha
关键词
text-based image captioning
搜索结果 - 3
MAGIC: 多模态关系图对抗推理,用于不同和不配对的基于文本的图像标题
研究了如何利用 unpaired training paradigm 生成多样化的文字图像描述,提出了 Multimodal relAtional Graph adversarIal inferenCe (MAGIC) 框架,并使用一种级联
→
PDF
3 years ago
CVPR
通过内容多样性探索实现准确的基于文本的图像描述
本文提出了一种基于锚文本和锚中心图的多视角多解释图像说明生成方法,以提高生成说明的多样性和准确性。
PDF
3 years ago
简单并不容易:文本 VQA 和 TextCaps 的简单强基准
本篇论文提出了一种简单的关注机制,通过将 OCR 令牌特征分别发送到可视化和语言关注分支,并将它们发送到流行的 Transformer 解码器以生成答案或标题,从而在 TextVQA 和 ST-VQA 等多个基准测试上取得最新的最佳表现,并
→
PDF
4 years ago
Prev
Next