- EMNLP揭示大型语言模型的安全漏洞
通过引入包含对抗例子(以问题形式)的独特数据集 AttaQ,本文评估了各种模型在其面前的脆弱性,并通过应用专业的聚类技术自动识别和命名脆弱的语义区域,以增强对模型弱点的评估,从而促进其安全机制和整体可靠性的有针对性改进。
- SAMCLR:利用 SAM 进行视图采样的复杂场景对比式预训练
在计算机视觉中,自监督对比学习通过使同一图像的不同视图具有类似的表示来实现。我们提出了 SAMCLR,它是 SimCLR 的一个附加部分,使用 SAM 将图像分割成语义区域,然后从同一区域采样两个视图。初步结果表明,在 Cityscapes - TopicFM +:提升主题辅助特征匹配的准确性和效率
本研究提出了一种基于主题建模策略来捕获图像高层次上下文信息的新型图像匹配方法,并使用池化和合并注意力模块来提高特征匹配的效率,能够在节约计算成本的同时,在具有挑战性的情况下,与最先进的方法相比保持更高的图像匹配精度。
- 弱监督语义分割的遮盖式协同对比
本文介绍了一种有效的方法 Masked Collaborative Contrast(MCC),以突出弱监督语义分割中的语义区域。MCC 巧妙地将掩蔽图像建模和对比学习的概念结合起来,设计了可诱导关键字收缩到语义相关区域的 Transfor - MPMQA:产品手册上的多模态问答
通过构建大规模的带有人工注释的 PM209 数据集,本研究提出了一个多模态产品手册问答(MPMQA)任务,其要求模型处理多模态内容并提供多模态答案,并进一步提出了一种统一模型,可以同时执行这两个子任务,并实现与多个任务特定模型相当的性能。
- CVPR3D 医学图像自监督预训练中的几何视觉相似性学习
提出新的几何学视觉相似性学习范式,将拓扑不变性的先验性质嵌入到 3D 医学图像的图像相似度测量中,以实现具有一致性的表示语义区域,从而提高内场、相场和全局 - 局部转移能力。
- ICCV基于区域感知上下文融合和交替局部增强的超高分辨率图像分割
本文介绍了一种新的局部感知上下文融合图像分割模型,旨在处理具有大变化语义区域的超高分辨率图像,并通过交替本地增强模块限制冗余信息的负面影响以产生精细结果,实验结果表明其优于其他最先进的方法。
- CVPR跨领域文档目标检测:基准套件和方法
文档对象检测(DOD)是将文档页面图像分解成高级语义区域(例如,图形、表格、段落)的基础,但在跨域 DOD 中存在挑战,本文旨在建立 a 基准套件以评估跨域 DOD 模型训练和提出方法,通过结合三个新的对齐模块,如特征金字塔对齐模块(FPA - CVPR全景分割的训练和推理统一化
我们提出了一种端到端的网络,用于连接全景分割的训练和推理管道,通过使用密集实例亲和力来捕获像素对属于相同实例的概率,并与 ResNet-50 骨干网络配合使用,实现了对 Cityscapes 和 COCO 数据集的新记录。
- ICCV学习语义特定图表示用于多标签图像识别
提出了一种 Semantic-Specific Graph Representation Learning (SSGRL) 的框架,包含两个重要模块:语义解耦模块和语义交互模块,其中语义解耦模块结合类别语义以指导学习语义特定表示,语义交互模 - CVPRTags2Parts: 从形状标签中发现语义区域
通过新型的神经网络结构,该研究提出了一种用于发现与用户指定标签强相关的形状区域的方法,并在分割基准测试中验证了该方法的有效性。
- CVPR生成描述性图像段落的分层方法
本文提出一种生成整段文字描述图片的方法,相比仅仅用一句话进行描述,该方法能够提供更加细致以及连贯的故事情节。该方法使用了分层递归神经网络对图片中的语义区域以及自然语言进行建模并生成整段文字。在实验中该方法被证明是较为有效的。
- AAAI基于姿态引导的深度特征人体解析
本文提出了一种基于 segment-based parsing 管道的方法,利用人体姿势信息对人体进行语义区域划分,从而提高了部分提案的准确率,加速了推理并使得解析过程更规则化,经实验证明该方法相比现有技术具有更好的优越性能。
- 主动模板回归进行深层人体解析
本文提出了一种基于 Active Template Regression (ATR) 的人体解析方法,使用两个卷积神经网络分别预测标签掩模的模板系数和活动形状参数,得到结构输出,进而生成解析结果。实验结果表明,与其他最先进的算法相比,ATR