学会识别面部超分辨率

Sep, 2019

Learning to Have an Ear for Face Super-Resolution

Givi Meishvili, Simon Jenni, Paolo Favaro

TL;DR本文提出了一种新颖的方法，利用音频和低分辨率图像进行极端人脸超分辨率，通过建立人脸的潜在表征并使用深度学习进行融合，以提高高分辨率图像重建过程的正确性，同时可以提取面部属性。

Abstract

We propose a novel method to use both audio and a low-resolution image to perform extreme face super-resolution (a 16x increase of the input size). When the resolution of the input image is very low (e.g., 8x8 pixels), the loss of information is so dire that important details of the or

face super-resolution audio-visual fusion latent representation deep learning facial attributes

发现论文，激发创造

神经网络实现的音频超分辨率

该研究介绍了一种新的音频处理技术，利用深度卷积神经网络提高音频的采样率，通过类似于图像超分辨率的过程，在测试过程中预测低分辨率信号中缺失的样本。该方法在实验中无需专门的音频处理技术，能够表现出更好的表现，显示出其在电话、压缩和文本转语音生成中的实用性

Aug, 2017

Speech2Face：学习声音背后的面容

本研究旨在利用数百万自然互联网 / YouTube 视频中的人物语音，建立和训练一个深度神经网络模型，以在不需要明确建模人物面部外貌特征的情况下，从个人短音频录音中重建面部图像，通过自我监督，研究模型如何识别人物的年龄、性别和种族。

May, 2019

具备音视频先验的极限规模讲话脸部视频升频

本文探讨了如何从一个 $8 imes8$ 像素的视频序列中获得丰富的信息，通过音频和图像的先验知识以及提出的音视频上采样网络，我们成功实现了 $32 imes$ 的视频放大，进一步在说话人视频压缩领域实现了 $3.5 imes$ 的比特率改进。

Aug, 2022

双耳声音的语义物体预测和空间声音超分辨率

本文介绍了一种基于双耳声音的声音制造对象的语义标记方法，利用跨模态蒸馏框架让视觉和听觉系统相互学习，形成多任务训练网络等手段提高系统的性能。

Mar, 2020

将声音与图像结合以确定视频中的发言者

本文提出了一种音视频关联系统，将音频和视觉信号的信息融合，通过对视频中的统计数据的聚合实现面部和声音的有效关联，无需针对此任务的具体训练数据，并利用音频和视觉流中信息的自然相干性，特别适用于跟踪网络视频中的说话人，通过对真实数据集的实验表明，该方法的准确率约为 71％。

May, 2017

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021

AVFace: 面向详细的音频视觉 4D 人脸重建

该研究提出了一种基于多模态的方法来实现从单目视频中进行 4D 人脸重建，并使用 AVFace 技术准确地重构任何人的面部和唇部运动，而无需任何 3D 地面真实测试。

Apr, 2023

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

AudioSR：大规模多功能音频超分辨率

通过使用扩散基于生成模型的 AudioSR，我们能够对多种音频类型进行稳健的音频超分辨率处理，包括音效、音乐和语音，并在 2kHz 到 16kHz 的带宽范围内将输入音频信号上采样到 24kHz 带宽的高分辨率音频信号，从而大大提高音频生成模型的生成质量。

Sep, 2023

看、听、学习

探索了音视频流之间对应关系，并提出了利用该信息实现的自我监督视听学习任务，结果表明该方法成功解决了问题，并展现出良好的视听表征，可以将其应用于声音分类、物体定位和细粒度识别任务。

May, 2017