BriefGPT.xyz
Ask
alpha
关键词
multi-modal context
搜索结果 - 3
用视觉监督减轻视觉 - 语言模型中的虚构问题
通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练,使其能够生成更精确的回答,减少幻觉;此外,提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型,与原始 LLaVA 相比,我们的方法在该基准下实现了 +8
→
PDF
7 months ago
TieFake:标题 - 文本相似度和情感感知假新闻检测
文章提出了 TieFake 方法,利用 BERT 和 ResNeSt 进行生成文字和图像的表示,采用 publisher 情感提取器捕获新闻内容中作者的主观情感,并提出了一个数字点积注意机制来捕获标题特征与文字特征之间的相似性,用于检测社交
→
PDF
a year ago
CVPR
LAVT:用于参照图像分割的语言感知视觉 Transformer
本研究提出一种新的方法,在视觉 Transformer 编码器网络的中间层通过对语言和视觉特征进行交叉融合,实现更好的交叉模态对齐,进而通过轻量级的掩模预测器得到准确的分割结果,该方法在 RefCOCO、RefCOCO + 和 G-Ref
→
PDF
3 years ago
Prev
Next