展示而非描述：临床场景中的音视建模

Oct, 2023

展示而非描述：临床场景中的音视建模

Show from Tell: Audio-Visual Modelling in Clinical Settings

Jianbo Jiao, Mohammad Alsharid, Lior Drukker, Aris T. Papageorghiou, Andrew Zisserman...

TL;DR本文介绍了一种在临床环境中的音频 - 视觉建模方法，提供了一种无需人工专家标注的学习医学表征的解决方案，通过只有语音音频作为参考，可以定位超声成像中感兴趣的解剖区域。在大规模临床多模式超声视频数据集上的实验评估表明，该自我监督方法学习到的良好可迁移的解剖表征可以提高自动化的下游临床任务的性能，甚至超过完全监督的解决方案。

Abstract

Auditory and visual signals usually present together and correlate with each other, not only in natural environments but also in clinical settings. However, the audio-visual modelling in the latter case can be mo

audio-visual modelling clinical settings self-supervised learning ultrasound imaging anatomical representations

发现论文，激发创造

无监督对比式视频 - 语音表征学习 —— 超声波应用

本文提出了一种用于医学图像处理的自监督学习方法，该方法可以从多通道超声视频和相应的言语音频数据中学习有意义的图像特征，评价结果表明该方法可以用于标准平面检测和视线预测等向下流任务。

Aug, 2020

课程视听学习

本文提出了一种灵活的音视频模型，通过软聚类模块作为音频和视频内容检测器，并将音视频并发的普遍属性视为推断检测内容之间相关性的潜在监督，并提出一种新颖的课程学习策略，从简单到复杂的场景训练模型，以缓解音视频学习的困难。同时，本文的音视频模型还可提供有效的单模态表示和跨模态对齐性能，进一步将训练好的模型部署到实际音视频定位和分离任务中，并显示其定位模型明显优于现有方法，基于此，我们在音频分离方面的性能也表现出色，而不需要参考外部视觉监督。

Jan, 2020

自监督多感官特征的音频 - 视觉场景分析

本文提出了一种融合多感官表征的方法，通过神经网络自动预测视频帧和音频的时间对齐情况，实现声音定位、视听行为识别和音频源分离等三个应用。

Apr, 2018

多模态相关性学习：用于主动说话人检测和语音增强的方法

提出了一个统一框架，通过视听联合建模来实现目标说话人检测和语音增强，以建立音频 - 视觉任务中的多模态关联。

Mar, 2022

面向音视频表情识别的处理缺失模态的训练策略

研究了当其中一个模态缺失时，自动音视频表情识别中 transformer 模型的表现，通过消融实验和随机消融训练数据的策略，提高了模型的泛化性能。

Oct, 2020

通过联合视听自监督从原始音频中学习语音表示

该研究提出了一种通过结合音频自监督和视觉自监督来训练原始音频编码器生成说话者面部图像的自监督语音表示方法，从而为音频视觉语音的自监督学习提供了潜力。

Jul, 2020

音视频语境下的学习：一份综述、分析和新视角

介绍了视听感知、跨模态感知和协同感知在计算机视听学习中的重要性，综述了该领域的最新发展，并提出了关于场景理解的新视角和未来发展方向。

Aug, 2022

自监督同步下的音频和视频模型协同学习

该研究通过自监督的时间同步学习模型实现音频和视频分析的目的，模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对，并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。

Jun, 2018

深度音视频学习综述

本篇论文综述了近期音视频学习发展的四个子领域：音视频分离和定位，音视频对应学习，音视频生成以及音视频表示学习，重点讨论其最先进的方法，剩余的挑战以及常用的数据集和性能评估。

Jan, 2020

无约束视频中的视听事件定位

本文介绍了一个新的无约束视频中的音频视觉事件定位问题，使用 AVE 数据集进行研究，提出了使用双模态残差网络结合音频引导视觉注意力机制处理音频视觉相关性的方案，并针对跨模态定位提出跨模态距离学习网络。实验结果表明，联合建模听觉和视觉模型优于独立建模，学习到的注意力可以捕捉声音对象的语义，音频视觉融合的时序对齐很重要，所提出的 DMRN 在融合音频视觉特征方面非常有效，两个模态之间的强相关性使跨模态定位成为可能。

Mar, 2018