- 无监督形态树分词器
通过引入形态结构指导标记,提出了一种深度模型来诱导单词的字符级结构,该方法在形态分割任务和语言建模任务上表现良好,并优于 BPE 和 WordPiece 等广泛采用的方法。
- 利用 Transformers 進行三維手部重建
从单眼输入中重建 3D 手部,利用基于 Transformer 的 HaMeR 方法,通过大规模数据训练和深度网络容量的扩展,对手部进行精确且鲁棒性增强的分析,并在流行的 3D 手部姿势基准测试中始终优于先前基准线。
- Concordia 并行神经符号一体化
该研究论文提出了一种名为 Concordia 的框架,可以有效地将逻辑理论的知识融入深度模型,支持广泛的概率性理论,并成功地应用于 NLP 以及数据分类的任务,以及集体活动检测,实体链接和推荐任务等领域,并且克服了之前其他研究所面临的限制。
- 用于临床准确的 X 射线报告生成的属性异常图嵌入
本文提出了一种基于属性异常图(ATAG)的深度模型,用于从医学图像自动生成医学报告,并在标准数据集上验证其诊断准确性表现优异。
- CVPR探索和评估动态场景图像修复的潜力
本文提出图像恢复潜力的概念,并通过建立有复合失真的动态场景图像数据集,使用深度模型预测该潜力的价值,并证明了恢复图像、优化相机设置和筛选有价值图像帧等多项应用的潜在优势。
- ECCVPressureVision: 从单个 RGB 图像估计手的压力
使用深度模型,基于 RGB 相机的人手外观变化来推断手压力,这种方法不需要使用压力传感器,并且可以推断出新正确性的人手压力数据。
- 3D 照片风格化:从单张图像学习生成风格化新视角
本文提出了一个深度模型,在场景的点云表示中学习基于几何感知的内容特征,以生成高质量且在视图上具有一致性的艺术化图像,从而实现了从单个图像到任意风格化图像的 3D 照片艺术化生成,并在定性和定量研究中展示了方法的优越性。
- CVPRImageNet 比赛中的无限制对抗攻击
该研究旨在探索更有效的无限制对抗性攻击算法,以加快在更强的无边界攻击下的模型稳健性的学术研究,并组织了一项比赛来促进此领域的发展。
- 无记忆类增量学习的初始分类器权重回放
在没有所有数据的情况下,基于初始分类器权重的归一化方法优于现有技术,在内存最小化的增量学习设置中,对于大规模数据集,它能够通过标准化初始分类器权重和预测得分来提高分类公平性 。
- ECCV通过场景图分解实现全面图像字幕化
通过细粒度的图像场景图表示,我们重新设计了图像标题生成模型,实现了准确、多样、可控制的标题生成,同时在标题多样性、项点化及可控制性等方面均取得了最新最佳结果。
- 观者视角下的注视和行为:第一人称视频
该研究旨在使用头戴式相机捕获的视频,基于人的动作和视线方向,开发一种新的深度学习模型,能够在 First Person Vision(第一人称视角)环境下进行准确的行动识别,并在 EGTEA Gaze+ 数据集上超越了当前技术水平。
- 利用辅助文本进行深度识别未见视觉关系
提出一种融合图像和文本信息用于视觉关系检测和场景图生成的深度模型,通过共同的文本图像表示方法实现文本补充图像数据,结果表明图像中没有的文本信息可以显著提高模型性能
- 语义角色跨语言转移:从原始文本到语义角色
使用基于注释投影的转移方法,开发了一种基于依赖关系的语义角色标注系统,在只有平行数据可用的语言中,不需要其他监督的语言信息。相比之前的工作,我们只使用了词和字符特征来避免使用监督的特征。我们的深度模型考虑使用基于字符的表示以及无监督的词干嵌 - 无监督图像超分辨率使用循环对抗网络
本文提出了一种无监督学习的方法,利用生成对抗网络和 Cycle-in-Cycle 网络结构,通过映射、上采样和微调等三个步骤,将带有噪声和模糊的低分辨率图片转换为高分辨率图片,并在 NTIRE2018 数据集上取得了与有监督模型相当的效果。
- 使用二进制掩码通过权重转换将新任务添加到单个网络中
本文研究了可视识别算法中增量学习的问题,并探讨了一种基于二进制掩码的深度神经网络多任务学习方法,试验结果表明本方法能够超越传统的微调策略并取得最新公开数据集中的最高水平。
- ECCV从 RGB 和稀疏感知估计深度
本研究提出了一种深度模型,能在极少的像素点处获得 RGB 图像的已知深度情况下,精确地生成密集深度图,并能在 NYUv2 和 KITTI 数据集上实现近乎实时速度的室内 / 室外场景的高质量深度点云。与其他稀疏到密集深度方法相比,在每~10 - 基于传感器的活动识别的深度学习:一项综述
本文综述了深度学习在传感器活动识别中的最新进展,并从传感器模态、深度模型和应用三个方面总结了现有文献,并提出了未来研究的重大挑战。
- MM可重构卷积神经网络实现的三维人体活动识别
本文提出了一种基于 RGB-D 视频的自动活动识别的深度模型,使用 3D 卷积和最大池化算子,结合激活函数以及学习出活动的时间结构,该模型可以直接作用在原始输入上进行活动分类,而且还允许动态调整模型结构以适应人类活动的时间变化,并在挑战性场