- 基于记忆的文本到图像生成
提出了一种基于记忆驱动的半参数方法来进行文本生成图像,这种方法基于参数和非参数技术,其中非参数部分是图像特征的记忆库,而参数化部分是生成敌对网络。实验结果表明,所提出的记忆驱动半参数方法在视觉保真度和文本图像语义一致性方面比纯参数方法产生更 - ECCVLabel2Label: 多属性学习的语言建模框架
该论文提出了一种名为 Label2Label 的简单而通用的框架,用于利用分类属性之间的复杂相关性,在多属性学习方面取得了出色的成果。
- 面向非黑色素皮肤癌高度表现力的机器学习模型
采用离散建模技术应用于非黑素瘤皮肤癌问题,通过实现 VQ-GAN 模型重建高分辨率 IEC 图像并训练序列转换器以生成自然语言描述,提供了理解疾病的另一个角度。
- 基于图像的端到端时尚推荐
本研究提出了一种简单而有效的基于属性注意力模型,利用图片特征进行更好的项目推荐,结果显示比所有最先进的基于图片的模型都要优秀。
- 社交媒体上的多模式聊天数据集
探索利用图片等多模态语境来改善对话系统,使用自然语言数据集 MMChat,通过人工筛选和过滤得到 MMChat-hf,利用注意力机制改善生成任务的稀疏性,结果表明引入图片特征的有效性和处理稀疏性的效力。
- CVPR基于排名的实例选择的抗噪深度度量学习
该研究提出了一种名为 PRISM 的深度度量学习的抗噪声训练技术,它使用记忆库存储和检索图像特征,并使用平均相似度来识别噪声数据,从而取得了比 12 种现有方法更优异的性能,最高可达 6.06% 的 Precision@1。
- 多模机器翻译中的 Gumbel-Attention
本研究提出一种新的 Gumbel-Attention 多模机器翻译模型,通过对图像特征进行选择,保留与文本相关的信息,进而提高多模机器翻译模型的翻译质量。
- 少样本学习的本地传播
本研究介绍了局部传播的方法,通过建立图来传播自身和标签,同时在少量数据情况下具有传导推断的能力,从而可以提高准确性。
- ICML迁移学习的可视化
通过观察深度图像识别网络的个体神经元在时间上的迁移学习过程中的可视化,我们定性展示了迁移学习过程中关于适应速度和特性、神经元重用、所代表的图像特征的空间尺度以及迁移学习对小数据的行为方面的各种新特性。同时,我们公开了为此分析创建的大规模数据 - 可几何映射的图像特征
本文介绍了一种机器学习方法,用于学习基于图像检索的定位图像特征,通过引导学习过程,使图像特征与几何距离成比例,并在实验中表现出更好的定位准确度以及在缺乏参考图像的情况下估计查询序列轨迹的能力。
- 用于高质量单视图 3D 重建的深度隐式表面网络
本文提出了一种新颖的用于单视角图像重构三维模型的方法 ——Deep Implicit Surface Network (DISN), 结合全局和局部图像特征以显著提高预测精度,能够捕捉 3D 形状中的细节,包括孔洞和薄结构等,并且在多类形状 - 深度学习预测髋部骨折,利用混杂患者和医疗变量
使用深度学习模型对 17,587 个 X 光片进行训练,研究了骨折的影像学特征、患者特征和医院过程特征对其影响,发现这些因素是计算机辅助诊断算法预测的主要来源,表明应该进一步研究深度学习决策过程以有效协作。
- ACL多模翻译的隐变量模型
本研究提出一种多模态神经机器翻译模型,通过潜在变量模型来建模视觉和文本特征之间的交互,预测图像特征和提高翻译性能,可以在训练阶段利用视觉和文本输入,而在测试阶段不需要图像输入,通过预测图像特征等优化,同时利用合成数据等附加训练方式进一步提高 - 基于主题引导的图像描述注意力模型
本文提出了一种新的注意力机制,称为主题引导注意力,在图像字幕生成中应用,通过将图像主题整合到注意力模型中作为指导信息,协助选择最重要的图像特征。在微软 COCO 数据集上的实验结果表明,该方法在各种定量指标上具有最先进的性能。
- KDD基于可解释图像表示的视觉感知个性化推荐
本文提出了一种新颖的个性化服装推荐方法,该方法使用可解释的图像特征学习过程来解释用户对特定视觉属性和风格的偏好,并在个性化排名任务中实现了最先进的性能。
- 联合流:多人跟踪的时间流场
本文提出了一种在线多人姿态跟踪方法,通过构建时空网络,利用多人姿态估计方法的空间网络提取图像特征和姿态特征,预测时间流场,并在二分图优化问题中使用相似性作为二元潜势实现多姿态追踪,展示了相对较小的 CNN 网络可以学习这些 TFF,同时实现 - ICLR通过预测图像旋转进行无监督表示学习
本研究提出利用 2D 旋转来训练卷积神经网络学习图像特征的无监督语义特征学习方法,并在演示和各种无监督特征学习基准测试中详尽评估该方法,在所有测试中均表现出明显的优异性能。
- 视觉问答最近进展综述
该论文综述了不同方法来解决视觉问答的问题,特别是描述了各种算法提取图像特征和文本特征的方法,并讨论了评估 VQA 模型的实验,并报告了它们在各种数据集上的表现。
- 利用深度学习揭示初级视皮层图像的神经编码
该论文使用深度卷积神经网络预测 V1 神经元对自然图像的响应,发现有 15% 的神经元可以准确预测,并使用逆神经网络确定激发 V1 神经元的图像特征(接受野),其中包括预测高级纹理图像特征的神经元。
- 图像字幕半监督框架
提出了一种新的图像字幕生成方法,该方法能够利用无图像数据的文本数据,并使用区域图像特征生成有意义的二进制向量,从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量,并通过软关注机制对其进