end-to-end trainable | BriefGPT

关键词end-to-end trainable

搜索结果 - 35

通过阅读顺序估计和动态采样实现类似逆操作的场景文本定位
提出了一种统一的端到端可训练的反向场景文本检测框架，通过创新的阅读顺序估计模块 (REM)、轻量级边界精化模块 (BRM) 和动态采样模块 (DSM) 实现了对复杂布局的反向场景文本的有效识别。
PDF6 months ago
ICCVMMVP: 基于动态矩阵的视频预测
该研究引入了一种端到端可训练的双流视频预测框架 —— 基于运动矩阵的视频预测（MMVP），旨在应对视频预测中对象未来运动的推理问题并保持其在帧之间的一致性。通过构建与外观无关的运动矩阵，MMVP 将运动和外观信息分离，从而提高了视频预测的准
PDF10 months ago
联合优化图像压缩与低光图像增强
为了在低光图像中同时实现更高的压缩率和更好的增强性能，我们提出了一个新的图像压缩框架，并对低光图像增强进行联合优化。实验结果表明，我们提出的联合优化框架相对于现有的 “压缩后增强” 或 “增强后压缩” 顺序解决方案，在低光图像中实现了显着的
PDFa year ago
SurgicalGPT: 外科视觉问答的端到端语言 - 视觉生成预训练模型
本文介绍了一种可伸缩的 Language-Vision GPT（LV-GPT）模型，它将 GPT2 模型扩展到包括视觉输入（图像），以改进机器人手术中的视觉问题回答（VQA）任务，该模型在内窥镜视觉挑战机器人场景分割 2018、Cholec
PDFa year ago
CVPR连接点：使用双层查询进行平面图重建
该研究主要讨论了如何使用 Transformer Architecture 来解决 2D 平面图的重建问题，并通过多个数据集的实验证明了其在各方面的优越性。
PDF2 years ago
一种基于张量融合层的自发语音痴呆检测的多模态方法
用深度神经网络进行多模态分析调查老年痴呆症，通过在音频、文本和图像等不同模态上进行传递学习，实现了优于现有研究的准确性和 F1 得分
PDF2 years ago
通过深度对象解析实现细粒度少样本识别
本文提出了一种基于深度物体解析的细粒度 few-shot 识别方法，在该框架中，我们学习一组模板来解析物体，这些模板在所有实例和类别之间共享，并且在测试实例中使用活动模板和部件位置相对几何匹配的方式进行识别。我们表明该方法具有解释性并且与最
PDF2 years ago
YOLO-Pose: 使用物体关键点相似性损失增强 YOLO 进行多人姿态估计
提出了 YOLO-pose 模型，它是一种不需要热力图的多人关键点检测和 2D 姿势估计方法。与现有的基于热力图的两阶段方法相比，该模型可以进行端到端的训练，并优化 Object Keypoint Similarity 指标。该模型在 CO
PDF2 years ago
端到端的活跃说话人检测
该研究提出了一种端到端可训练的网络，结合图神经网络和弱监督策略，用于解决活动说话者检测问题，取得了最优性能。
PDF2 years ago
CVPR针对多人姿态估计的学习本地化 - 全局上下文适应
本文研究了一种名为 LOGO-CAP 的多人姿势估计方法，该方法通过学习局部 - 全局上下文适应来实现准确的多人姿势估计。
PDF3 years ago
ICCVPatchMatch-RL：利用像素级深度、法线和可见性的深度多视角重建
本文提出了一种基于强化学习的端到端可训练 PatchMatch 多视角立体视觉方法，实现像素级别深度、法向量的估计，并将其与可训练损失和正则化相结合以解决在深度范围大、视角差距大的场景下的深度估计问题。实验结果表明，该方法在 ETH3D 数
PDF3 years ago
基于分割的场景图生成
该论文提出了第一个像素级分割 - 基于场景图生成的框架，并通过辅助数据集的转移学习和多任务学习解决了目标场景图数据集中缺乏分割标注的问题，其中引入了基于语义相似性权重的线性组合来表达目标对象的分割掩模，并引入了新颖的高斯注意机制实现像素级关
PDF3 years ago
CVPRLED2-Net：基于可微深度渲染的单目 360 布局估计
本文提出一种 360 布局估计的方法，采用可微分的深度渲染程序进行 3D 重建，从而达到对布局进行 3D 重建的目的，并取得了最新的性能表现。
PDF3 years ago
TrackFormer：基于 Transformer 的多目标跟踪
TrackFormer 是基于编码器 - 解码器变压器架构的端到端可训练的多目标追踪方法，利用注意力实现帧到帧的数据关联，以查询的形式自回归地跟踪现有轨迹并初始化新轨迹，能够实现目前最先进的多目标跟踪的性能。
PDF3 years ago
用卷积自编码器填充人体运动
本论文提出一种基于卷积自编码器的算法来解决 3D 人体运动数据中的运动填充问题，通过将缺失的姿势预测出来以使得填充后的姿势能够自然地过渡到结束序列。此方法不仅能够填补完整的帧，还能够用于补充部分姿势和去除噪声，同时能够自动拟合变化长度的缺口
PDF4 years ago
MAFF-Net：使用多模式自适应特征融合过滤 3D 车辆检测的误报
本文提出了一种基于多模态融合的三维车辆检测方法，使用图像信息有效降低了假阳性，具有快速检测速度；通过基于通道注意力机制的多模态自适应特征融合模块，实现了对不同模态特征的自适应调节和融合技术的适应性，实验结果表明该方法能够过滤掉更多的假阳性，
PDF4 years ago
ECCV通过可区分裂片检索实现图像合成的 RetrieveGAN
该论文提出一种利用场景描述和参考补丁合成图像的方法，并使用可微分检索模块实现端到端的培训，以学习更好的特征嵌入用于检索，并通过附加目标函数鼓励选择相互兼容的补丁。经过广泛的定量和定性实验表明，该方法可以生成逼真多样的图像，检索的补丁合理且相
PDF4 years ago
STEm-Seg：视频中的时空嵌入实例分割
该论文提出了一种新的视频实例分割方法，基于单阶段的 3D 空间 - 时间体积建模，使用时空嵌入技术聚类像素特征，通过单阶段网络实现端到端训练和推理，取得了多项最先进结果。
PDF4 years ago
CVPR多尺度和上下文自适应熵模型用于图像压缩
本文提出了一种端到端可训练的图像压缩框架，采用自回归和分层先验的组合估计每个潜在表示的分布，并使用一种方法将比特率分配到每个图像以最大化 MS-SSIM。
PDF5 years ago
使用引导注意力在视频中进行自然语言查询的无需提议的时间时刻定位
本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法，以自然语言作为查询，解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件，实现从语言信息到视觉领域的转换，并评估了该方法在两个基准数据集上
PDF5 years ago