深度肖像照明

ECCVMar, 2022

Deep Portrait Delighting

Joshua Weir, Junhong Zhao, Andrew Chalmers, Taehyun Rhee

TL;DR本文提出了一种深度神经网络，用于从任意肖像图像中去除不良阴影特征并恢复底层纹理。该方法通过三种正则化策略来提高去阴影的质量和泛化能力，并演示了如何将该方法用于增强面部照明和语义分析等计算机视觉任务的性能。

Abstract

We present a deep neural network for removing undesirable shading features from an unconstrained portrait image, recovering the underlying texture. Our training scheme incorporates three regularization strategies: masked loss, to emphasize high-frequency shading features; soft-shadow l

deep neural network shading removal image restoration face relighting semantic parsing

发现论文，激发创造

通过分离噪声退火来改进扩散逆问题求解

通过解决复杂的非线性反问题，特别是在相位恢复中，我们提出了一种名为 Decoupled Annealing Posterior Sampling（DAPS）的新方法，该方法通过新颖的噪声退火过程，解决了当前扩散取样过程难以纠正早期取样步骤错误而导致性能下降的问题，其探索了更大的解决方案空间，改进了准确重建的成功率。

Jul, 2024

具有辛保持特性的深度神经网络

我们提出了一种深度神经网络架构，其输出形成了输入的可逆辛变换。利用这种神经网络类型，可以在未知哈密顿系统上进行学习任务，而不破坏相空间的固有辛结构。

Jun, 2024

一种用于动态多值映射估计及其应用的深度神经网络框架

该论文介绍了一种深度神经网络框架，结合了生成网络和分类组件，旨在建模和估计输入与输出之间的动态多值映射，并提供可靠的不确定性度量。通过使用离散码本和分类器，该框架可生成给定输入的多个解决方案，并通过优化码本和不确定性估计来实现高精度的近似。实验结果表明，该框架在不确定性估计下准确地估计了动态多值映射。

Jun, 2024

利用扩散模型作为约束：增强图像恢复网络通过扩散模型训练

通过引入自然性导向和语义感知优化机制 DiffLoss，本文旨在改善图像恢复领域中的颜色和纹理失真问题，并提高图像的语义感知恢复能力，以实现图像恢复任务和高级识别任务的连接。

Jun, 2024

ConStyle v2：一个强大的全方位图像修复提示器

该论文介绍了 ConStyle v2—— 一个强大的即插即用提示器，旨在输出干净的视觉提示并帮助 U-Net 图像恢复模型处理多种退化。深度训练证明 ConStyle v2 能够增强任何 U-Net 图像恢复模型，成为全能图像恢复模型的优秀引导者。

Jun, 2024

深度神经网络超参数化的局部线性恢复保证

在深度学习理论中，我们引入了 “局部线性恢复”（LLR）的概念，证明了表达能力较弱的深度神经网络（DNN）可从更少数量的样本中恢复，而且对于两层 tanh 神经网络，我们还证明了这一结果的最优情况。我们的研究为进一步研究过参数化情况下 DNN 的恢复能力奠定了坚实的基础。

Jun, 2024

FASA：一种用于提取高质量对齐儿童语音数据的灵活自动对齐器

通过提出一种新的强制对齐工具 FASA，可以从现有的嘈杂的儿童语音数据中提取高质量的对齐儿童语音数据，并显示 FASA 可以比人工标注提高数据质量 13.6 倍。

Jun, 2024

DaLPSR：针对现实世界图像超分辨率的损失对齐语言提示

本研究提出了利用退化对齐的语言提示来实现准确、精细和高保真度的图像恢复，通过图像恢复提示对图像的退化程度进行自动辨别，同时结合预训练的多模态大型语言模型获取与人类感知紧密相关的高级语义先验，综合比较分析表明，该方法在图像感知质量上达到了新的最先进水平，尤其是在基于无参考度量的真实场景中。

Jun, 2024

大规模投资前的动漫热度预测：基于深度学习的多模态方法

本研究提出了使用多模态文本图片数据集预测日本动漫热门度的方法，通过使用从互联网中获取的开源数据构建这一数据集，利用基于 GPT-2 和 ResNet-50 的深度神经网络模型，研究多模态文本图片输入与热门度之间的相关性，发现数据集的相关优势和弱点。通过使用均方误差（MSE）度量模型的准确性，当考虑所有输入和完整版本的深度神经网络时，获得最佳结果为 0.011，而传统的 TF-IDF 和 PILtotensor 向量化方法获得的基准 MSE 为 0.412。这是首次使用多模态数据集来解决此任务，揭示了即使使用相对较小的模型（ResNet-50）对图像进行嵌入处理也能带来的显著好处。

Jun, 2024

逐步学习上下文环境中的迭代检索

通过强化学习的训练过程，我们引入了迭代检索的新框架，将活跃检索器赋予迭代决策的能力，并在选择上下文学习示例时在语义解析任务中表现优于之前的方法。

Jun, 2024