视觉编译器：合成场景特定行人检测器和姿势估计器

CVPRDec, 2016

视觉编译器：合成场景特定行人检测器和姿势估计器

Visual Compiler: Synthesizing a Scene-Specific Pedestrian Detector and Pose Estimator

Namhoon Lee, Xinshuo Weng, Vishnu Naresh Boddeti, Yu Zhang, Fares Beainy...

TL;DR使用 Visual Compiler 概念生成特定场景下的人行检测器和姿态估计器，通过计算机图形渲染预测场景中人体的几何和光度精确图像，再使用生成的图像训练出一个空间可变的卷积神经网络，从而在缺乏真实人体标注数据时提供一种非常优秀的快速检测和姿态估计的解决方案。

Abstract

We introduce the concept of a visual compiler that generates a scene specific pedestrian detector and pose estimator without any pedestria

visual compiler pedestrian detector pose estimator computer graphics rendering convolutional neural network

发现论文，激发创造

通用化多相机三维行人检测

提出了一种多相机 3D 行人检测方法，该方法不需要使用目标场景的数据进行训练，通过基于人体姿势和来自现成单目检测器的人物包围框的新启发式方法在地面平面上估计行人位置，然后将这些位置投影到世界地面平面，并用新的团覆盖问题公式进行融合，同时还提出利用域通用的行人再识别模型在融合期间对行人外貌的选择性步骤，评估表明，在具有挑战性的 WILDTRACK 数据集上，所提出的方法获得了 0.569 的 MODA 和 0.78 的 F 分数，优于现有的最先进的通用检测技术。

Apr, 2021

行人合成 GAN：在实景及更多场景下生成行人数据

本文提出了使用生成对抗网络（GAN）与多个辨别器结合的方法，生成大量逼真的行人图像并应用到行人检测任务中，证明通过添加合成数据可以显著地提高检测器的性能。

Apr, 2018

基于图像合成的深度 3D 人体姿态估计

本文提出了一种在 “野外” 环境中进行三维人体姿态估计的解决方案，通过生成大量的具有三维姿势标注的逼真合成图像，并使用这些图像对全身三维姿势进行端对端的卷积神经网络训练，成功地在受控环境（Human3.6M）中优于大多数已发表的作品，并在真实图像（LSP）中展现了有前途的结果。

Feb, 2018

语义驱动的多摄像头行人检测

本论文介绍了一个利用自动提取的场景上下文信息的多摄像头全局组合行人检测方法，通过语义分割技术获得上下文信息用于自动生成场景的共同区域，从而获取一系列的联合检测框。相比其他同类方法，本文提出的方法具有场景无关性和实现的快速性，且在五个公共数据集上验证具有更好的性能。

Dec, 2018

使用一系列的 GAN 生成合成图像进行行人检测

提出一种新颖的图像生成流水线，其中包括三种不同的生成对抗网络，以增加行人检测的数据集，尽管生成的图像不总是对人眼视觉上愉悦的，但我们的检测基准显示结果明显超过基准线。

Jan, 2024

合成人类不常见的姿势图像

本文介绍了一种基于模块化生成神经网络的方法，用来合成出一张人的图像并保证姿势、外貌和背景的一致性，其中包括了基于图像和动作的训练资料，以及对抗性判别器等技术来实现姿势合成，最终能够生成与动作类别准确匹配的图像，同时还可以将多个动作合成为视频。

Apr, 2018

从野外单张图像中的姿势引导的人类动画

本文提出了一种新的姿态转换方法，通过使用组合神经网络，预测人的轮廓，服装标签和纹理，并在推理时利用训练有素的网络生成一个外观及其标签的统一表示，以对姿势变化做出响应，并使用背景完成外观的呈现，从而实现保留人物身份和外观，具有时间上的一致性和泛化能力。

Dec, 2020

ParGANDA: 实现物体检测中合成行人的现实

使用生成对抗网络 (GAN) 以解决真实与合成数据之间的领域差异，提高物体检测的性能，尤其针对行人检测，在不需要真实标签的情况下生成真实样本，适用于各种下游任务。

Jul, 2023

利用语义反馈实现智能边缘传感器的实时多视角三维人体姿态估计

通过分布式智能边缘传感器以及语义反馈循环的后端，我们提出了一种从多摄像机设备中估计 3D 人体姿态的新方法，其只传输语义骨架表示，能够实现实时操作并取得了最佳结果。

Jun, 2021

个性化的人类视频姿态估计

该研究提出了一种个性化 ConvNet 姿态估计器，它可以根据帧与帧之间的时间跨度和人物外貌的特点，在视频中生成高精度的姿态标注，并利用自评模型筛选高质量的标注，并通过自动化的 fine-tune 训练方法将其个性化，相比于通用的 ConvNet，对目标视频的姿态估计得到了大幅提升，表现比现有方法更好。

Nov, 2015