- AAAIOOGAN: 用 One-Hot Sampling 和正交正则化解开 GAN 的纠缠
本文探讨了使用 GAN 实现无监督分解学习的潜力,提出了一种新的基于 GAN 的分解框架,使用 One-Hot Sampling 和正交正则化 (OOGAN)。通过针对生成器和鉴别器结构的微小结构变化和正交正则化,实现了更优秀的分解结果,且 - CVPR基于深度学习的单张户外照明估计模型
我们提出了一种数据驱动的天空模型,利用单张图像进行室外照明估计,通过综合数据集来训练,并成功解决了光照建模和估计问题。我们的方法可以直接从测试图像中估计 HDR 照明环境映射,发现我们的学习天空模型表现出很强的适应性和表现力,能够恢复出合理 - 超分辨率的深入探究:一份综述
比较了三个经典和三个最近引入的具有挑战性的数据集上的 30 多种最先进的超分辨率卷积神经网络,提出了一种基于深度学习的超分辨率网络的分类方法,并提出了现有技术的几个缺点和未来研究方向。
- 利用视觉上下文辅助多模式命名实体识别中的文本内表示
本文在 Twitter 和 Instagram 等社交媒体大规模爆炸的情况下,探索了基于多媒体发布中关于实体识别的问题。我们提出了一种端到端模型,学习了文本和图像的联合表示。模型扩展了多维自我关注技术,其中现在图像有助于增强单词之间的关系。 - RoarNet: 一种基于区域近似优化的鲁棒三维物体检测方法
RoarNet 是一个基于 PointNet 作为主干网络的两阶段物体检测框架,通过对二维图像和三维激光雷达点云的处理,实现了优越的三维物体检测性能,其在 KITTI 数据集上的表现也超越了现有公开方法。
- EMNLP多模态微分网络用于视觉问题生成
该研究提出使用范例获取相关语境,利用多模式差分网络生成自然而富有吸引力的问题,此方法在定量指标(BLEU,METEOR,ROUGE 和 CIDEr)方面取得了显著的改进,生成的问题与自然问题的相似性经过人类研究验证。
- ECCV使用 GAN 学习图像超分辨率,先学习如何进行图像退化
本文提出了一种基于生成对抗网络的图像和人脸超分辨率的方法,通过训练高分辨率到低分辨率的 GAN 和低分辨率到高分辨率的 GAN 两个阶段,可以有效地提高实际应用场景下的低分辨率图像的质量,进而在人脸超分辨率领域取得了显著成果。
- ECCVBodyNet: 3D 人体形状的体积推断
本篇研究提出了一种名为 BodyNet 的神经网络,通过直接推断体积棱柿,从而预测自然图像中的三维人体形状,同时结合三维损失和多视角重投影损失以及适当的监督,实现了性能的提升;通过将 SMPL 模型应用于网络输出,并在 SURREAL 和 - ECCV级联残差网络:高速、高精度、轻量级超分辨率
本文提出一种准确且轻量的深度学习网络结构用于图像超分辨率问题,该网络结构采用级联机制并在残差网络上实现,实验证明即使使用较少的参数和运算,该模型的性能与最先进的方法相当。
- ECCV条件图像 - 文本嵌入网络
本文提出了一种基于图像的短语 grounding 方法,基于一个端到端模型的多重条件嵌入来实现。为了将文本短语划分为语义上的不同子空间,我们提出了一个概念权重分支,可以自动将短语分配到嵌入,而不是像传统方法一样预先定义这些分配。我们的方法简 - MSR-net: 使用深度卷积网络进行低光图像增强
利用卷积神经网络和 Retinex 理论,基于低光照条件下图像对比度很低的事实,提出了一个低光照图像增强模型。通过实验,证明该模型在质量和量化方面比其他同类模型有优势。
- 重新思考复投影:从单张图像进行姿势感知形状重建的闭环
该论文提出了一种新的、基于 2D 注释的单张图像姿态感知的 3D 形状重建方法,通过设计特定的深度学习模型,实现了姿态感知形状的精准重建,并在多个对象类别的测试中验证了该方法的优越性。
- 应用于语义分割的深度学习技术综述
该论文综述了应用于各种应用领域的基于深度学习技术的图像语义分割方法,描述了该领域的术语和必要的背景概念,并评估了现有方法的贡献和意义,并给出了相应的定量结果和讨论。
- CVPR用变分自编码器生成多样性问题的创造力
本文提出了一种基于变分自动编码器和长短期记忆网络的视觉问题生成算法,能够生成大量多样的问题,实现了一种创造性的算法来生成逼真的问题。
- CVPR深度户外照明估计
本文介绍了一种基于卷积神经网络的方法来从低动态范围(LDR)图像中估算高动态范围(HDR)全景图的户外照明,通过训练网络并提取大量的输入图像与输出照明参数对,本文的方法允许恢复真实感照明条件并能从单一图像中实现逼真的虚拟物体插入。
- EMNLPVQA 中的问题相关性:识别非视觉和虚假前提问题
本文提出并解决了在 Visual Question Answering 中问题是否与图片相关的问题,并使用 LSTM-RNNs、VQA 模型不确定性和标题 - 问题相似性等方法,增强 VQA 模型的智能性和人性化。
- Word2VisualVec: 利用视觉特征预测图像和视频对句子的匹配
本研究旨在寻找最佳描述图像或视频内容的语句,通过生成句向量和多层感知机,构建了一个名为 Word2VisualVec 的深度神经网络体系结构来实现针对图像或视频与句子的匹配。该体系结构在四个复杂的图像和视频基准上的实验测试中表现出显着的现实 - MM影像与信息
本文简要概述了什么是图片和其中的信息,并探讨了机器有效地检索图像信息的问题。
- CVPR生成和理解明确的物体描述
本文提出了一种生成图像中特定物体或区域(即指代表达)的明确描述并理解或推断所描述的物体的方法。实验表明,该方法优于之前没有考虑场景中其他潜在歧义对象而生成对象描述的方法。作者基于深度学习方法取得的最近成功,灵感提出了该方法。作者提供了一个基 - 视觉语义角色标记
本文介绍了视觉语义角色标注的问题,即在给定图像的情况下,我们希望检测人们进行的动作并定位交互对象,为了实现这个目标,我们注释了一组数据集,并提供了一组基准算法来解决这个问题,并分析了错误模式,为未来的工作提供了方向。