BriefGPT.xyz
Ask
alpha
关键词
multimodal matching performance
搜索结果 - 1
对比视觉语言模型中的文本编码器是性能瓶颈
通过创建 CompPrompts 数据集的方法,研究了视觉 - 语言模型的编码模式对语言信息的损失情况,并提出了基于文本恢复的方法和 ControlledImCaps 评估基准,发现文本恢复能力与模型适用于呈现目标属性关系、计数、否定和多目
→
PDF
a year ago
Prev
Next