关键词end-to-end trainable framework
搜索结果 - 9
- UniDEC:集成双重编码器和分类器的极端多标签分类训练
该研究提出了一种称为 UniDEC 的新型可端对端训练框架,该框架通过使用多类损失将双编码器和分类器一起以统一的方式进行训练,以探索极端多标签分类中的两个关键方面:(i) 双编码器训练通常仅使用单个正相关性,即使数据集提供更多;(ii) 现 - 基于有向图神经网络的鲁棒角度同步
使用有向图神经网络提出了 GNNSync,一个理论基础的端到端训练框架,用于解决角度同步问题及其异构扩展,并通过新的损失函数在广泛数据集上进行实验证明 GNNSync 在高噪声水平下具有竞争力和优越性能。
- ECCVCFAD: 空时动作粗定位器
本文提出了一种 Coarse-to-Fine Action Detector (CFAD) 框架,用于高效的时空动作定位,该框架将视频流分为粗动作管和精细动作管,分别利用长时信息建立粗管,并在关键时间戳的指导下选择性地调整管的位置。实验结果 - ECCV在视频中联合学习社交群体、个体动作和子群体活动
本文提出了一个端到端的可训练框架来解决人类活动理解中的社交任务。该框架同时分组人们,预测他们的个人行为和每个社交团体的社交活动,并提供了新的数据集注释。
- CVPR基于语义推理网络的准确场景文本识别
提出了一个新的基于语义推理网络的端到端的可训练框架,用于场景文本识别,其中引入了全局语义推理模块来通过多向并行传输捕获全局语义内容,具有比基于循环神经网络方法更快的速度。该方法在包括正常文本、不规则文本和非拉丁长文本在内的 7 个公共基准上 - GeoConv: 面部表情动作单元识别的测地线引导卷积
本研究提出了一种将三维流形信息嵌入二维卷积的新颖方法 —— 地形引导卷积(GeoConv),并基于 GeoConv,开发了一种名为 GeoCNN 的端到端可训练框架,用于面部动作单元(AU)的识别。BP4D 和 DISFA 基准测试的广泛实 - ROSA: 对抗攻击下的强鲁棒显著目标检测
本文提出了一种新的针对 FCN-based 显著对象检测模型的对抗攻击防御框架,其采用一些新的通用噪声来破坏对抗扰动,然后学习使用引入的噪声预测输入图像的显著性地图。实验结果表明我们的提出的方法显著地提高了一系列数据集上最先进模型的性能。
- 异构内存增强的多模态注意力模型用于视频问答
本文提出了一种新的端到端可训练的视频问答(VideoQA)框架,包含三个主要组成部分:新的异构内存、重设计的问题内存和新的多模式融合层,其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案,实验结果表明该方法在四个 V - 从单张图像进行彩色 3D 重建
本文提出了一种通过一个可视化的二维图像还原立体物体的彩色与形状的方法,该方法为 an end-to-end trainable framework,能够同时处理 shape recovery 和 surface color recovery