vHeat: 基于热传导的视觉模型构建

May, 2024

vHeat: Building Vision Models upon Heat Conduction

Zhaozhi Wang, Yue Liu, Yunfan Liu, Hongtian Yu, Yaowei Wang...

TL;DR通过模拟热传导原理，本研究提出了 vHeat，一种新颖的视觉模型，可以同时实现高计算效率和全局感受野，并通过 Heat Conduction Operator (HCO) 模块将其应用于深度模型中。广泛的实验证明 vHeat 在各种视觉任务上超越了 Vision Transformers (ViTs)，同时为高分辨率图像提供了更高的推理速度、降低的 FLOPs 和较低的 GPU 内存使用。

Abstract

A fundamental problem in learning robust and expressive visual representations lies in efficiently estimating the spatial relationships of visual semantics throughout the entire image. In this study, we propose vheat

visual representations spatial relationships vheat heat conduction operator vision transformers (vits)

发现论文，激发创造

深度卷积编码器 - 解码器层次神经网络在共轭传热代理建模中的应用

该论文介绍了一种基于深度学习的代理建模方法，DeepEDH 方法，用于计算量大的共轭热传递模型，并通过建立计算模型和使用有限元法进行求解，对冷却板冷却的电池热管理系统中的压力、速度和温度场进行建模和预测，从而验证了 DeepEDH 方法的有效性。

Nov, 2023

逆热散射生成建模

本文提出了一种基于扩散算法生成图像的模型，将前向热方程的解释为噪声后的扩散潜变量模型的变分近似。其具有整体颜色和形状解耦的性质，同时通过自然图像上的谱分析，揭示了其暗含的自上而下的归纳偏置。

Jun, 2022

HeatViT：面向视觉 Transformer 的硬件高效自适应 Token 剪枝

本文提出了一种硬件高效的图像自适应标记修剪框架 HeatViT，以在嵌入式 FPGA 上实现高效而准确的 ViT 加速，通过显著重复利用现有硬件组件来实现标记选择器，使用固定点量化和多阶段训练策略来优化插入标记选择器的变压器块，使模型在硬件上不仅提高了准确性和推理延迟，而且还可在与现有计算成本相似的情况下获得更高的准确性或在与相似模型准确性相似的情况下实现更高的计算量减少。

Nov, 2022

DeepOHeat: 基于算子学习的三维集成电路设计超快速热模拟

本文提出了 DeepOHeat，一个物理感知算子学习框架，该框架可以预测带有多个参数或非参数设计配置的热方程族的温度场，从而通过更改关键设计配置（而不仅仅是一些参数）实现快速热分析和优化。实验结果表明，对于未知测试用例，经过良好训练的 DeepOHeat 可以产生精确的结果，速度比传统方法提高了 1000 倍到 300000 倍。

Feb, 2023

HEAT: 头部层级参数高效调整视觉 Transformer 并利用泰勒展开法的重要性评分

使用 Head-level Efficient Adaptation with Taylor-expansion importance score (HEAT) 方法，通过计算每个头部的重要性得分来高效微调视觉转换器（ViTs），这种方法在计算机视觉和参数高效转移学习方面取得了优越的性能。

Apr, 2024

所有都值得一提：一种适用于扩散模型的 ViT 主干网络

本篇研究提出了一种基于 Vision Transformers 构建的简单通用的 U-ViT 架构，通过对时间、条件和噪声图像块等所有输入采用标记方法，并在浅层和深层之间采用长跳过连接，实现与同等大小 CNN-based 的 U-Net 相似的无条件和类条件图像生成，以及文本到图像生成任务的优化，具有不错的 FID 得分。该研究结果表明，对于基于扩散的图像建模，长跳过连接至关重要，而 CNN-based U-Net 中的下采样和上采样算子并非总是必要的。

Sep, 2022

可见光到热红外人脸 GAN 模型胜于有条件扩散

本文提出了一种新的生成对抗网络叫 VTF-GAN，它能够通过学习人脸的空域和频域特征，实现从可见光图像到红外热成像图像的高质量转换。实验结果表明，相对于其他对比算法，VTF-GAN 具有更高的质量和真实感。

Feb, 2023

表面视觉转换器：应用于皮质分析的基于注意力的建模

研究使用 attention 模型建立一个面向域无关的架构，可用于任何表面数据在球状流形上的研究，被证实在皮层表面度量的表型回归任务中优于表面卷积神经网络，而在注册和未注册数据上表现相当。

Mar, 2022

学习结构引导的扩散模型用于二维人体姿态估计

本文提出了 DiffusionPose，将 2D 人体姿态估计问题定义为噪声热图的关键点热图生成问题，并通过添加噪声，将关键点扩散到随机分布中，学习扩散模型从噪声热图中恢复与图像特征相关的地面真值热图，从而实现从初始化热图的漸進式降噪方式生成热图。此外，本文还进一步探究了从人体结构信息中提取条件以提高 DiffusionPose 的性能。经过广泛的实验，证明了 DiffusionPose 的优越性，在广泛使用的 COCO、CrowdPose 和 AI Challenge 数据集上分别提高了 1.6、1.2 和 1.2 mAP。

Jun, 2023

多视角图像下基于顶点热图的 3D 人体网格重建的表示学习

这项研究解决了通过多视角图像重建三维人体网格的问题，通过使用自动编码器对顶点热图进行表示学习，并利用 AMMASS 数据集学习顶点之间的连结模式，开发了一种基于先前训练好的权重的潜在代码监督的身体编码预测器来重建人体网格，并在 Human3.6M 和 LightStage 数据集上实验后发现该方法的表现超过了以前的方法，达到了最先进的人体网格重建性能。

Jun, 2023