- 无监督的混合尺度群组协作度量学习对于普通物体检索的应用
通过无监督的深度度量学习方法,本文提出了一种新颖的混合比例分组的无监督协同度量学习方法 (MS-UGCML),用于学习不同尺度对象的嵌入表示。同时,通过利用 COCO 2017 和 VOC 2007 数据集,组装了一套挑战集,以促进通用对象 - EMNLP探索用于多模态离域检测的大型语言模型
应用世界知识通过选择性生成大型语言模型并利用一致性基准不确定性校正方法来提高过分布检测性能,通过从每个图像提取视觉对象充分利用前述世界知识,充分实验证明本方法始终优于现有技术。
- 防护信函设计方向
通过使用迭代快速梯度符号方法(I-FGSM)测量字母的防御性,并建立深层回归模型估计每个字母图像的防御性,本文提出了与字母图像的对抗脆弱性相关的三个研究问题:(1)字母对抗攻击的防御能力如何?(2)在攻击之前,我们能否估计给定字母图像的防御 - 测量人类视觉分割的不确定性
通过像素为基础的判断和模型重构,本文探讨了说同异不同判断和图像不确定性如何影响感知分割和各个特征的权重,并将其应用于自然图像和复合材料纹理的分割,以对感知理论进行定量测试和创造分割算法的新基准。
- ACL多模态对话状态跟踪
本文提出了一项新的多模式对话状态跟踪任务,用于跟踪视频对话中提到的视觉对象的信息;并介绍了 Video-Dialogue Transformer Network (VDTN) 作为实现该任务的基准模型。
- 多模态知识图谱增强实体感知图像描述
该研究提出一种构建多模态知识图谱,将视觉对象和命名实体联系起来并同时捕捉实体之间的关系在内的新方法,以帮助名实体感知图像并生成更具信息量的事件描述。
- KDDPAM: 跨产品类别属性提取中的产品图像理解
本文提出了一个全面利用产品图像、光学字符识别(OCR)令牌和文本表示的、统一的属性提取框架,并通过训练解码器来预测产品类别和属性值,从而进一步扩展了该框架的能力。在包含多个产品类别和各种产品属性的电子商务平台上进行了评估,与仅使用文本特征的 - 自动驾驶汽车的命令下达:如何处理不确定情况?
该论文提出了一种模型,用于检测当给定命令时不确定的情况和引起它们的视觉对象,并为乘客生成澄清问题,从而增强乘客对自动驾驶车辆的信心。
- 复合式零样本识别的因果视角
描述了一种利用因果思想构建复合泛化的方式,并建议将零样本推理视为查找 “哪种干预导致了图像?”; 提出了一种因果启发的嵌入模型,该模型从相关(混淆)训练数据中学习可视对象的基本部分的分解表示,用于预测属性 - 对象对的新组合。 在两个数据集 - ICCV图像合成的无监督鲁棒性潜在特征分离
通过学习一个新的方法,深度生成模型可以不需要姿态注释便可学习到表征物体外观和姿态等属性的独立潜在特征,这些特征是可以解释的,且能够生成和修改图像。
- ECCV大鼠初级视觉皮层中视觉物体表示的表征
本文通过有指导的和无指导的学习方法,分析了大鼠初级视皮层(V1)中各种视觉物体属性的表示,并证明了 V1 神经元具有区分能力,可以直接从神经元响应中派生出光度属性(亮度和物体在场景中的位置)的能力。
- 通过条件图像生成进行无监督物体地标学习
提出了一种无需手动监督来学习视觉对象(例如面部中的眼睛和鼻子)的地标探测器的方法,通过几何提取过程中引入的紧密瓶颈,结合外观和几何来生成图片,该方法适用于多种数据集,包括人脸、人物、3D 对象和数字,同时在无监督地标检测方面优于现有最先进的 - 跨越呈现问题:计算机视觉算法用于艺术作品和照片中物体的识别
本研究针对视觉识别中的交叉描绘问题进行了分类、领域适应和深度学习方法的基准测试,发现拥有强大的部件间空间关系模型的方法通常更强大,进而得出该模型在建模对象类别方面具有重要作用且不受外观细节影响的结论。