音频视觉广义零样本学习的分布外检测:一个通用框架
本文提出了一种基于超出分布检测器的广义零样本学习框架,以解决零样本行为识别中的问题。我们使用生成式对抗网络合成了新的动作类别特征,并将其用于训练检测器。实验证明,该方法在三个数据集上的性能优于基准模型(f-CLSWGAN),分类准确率分别提高了7.0%、3.4%和4.9%。
Apr, 2019
本文提出了一种新的多模式推广零样本学习方法,使用文本嵌入的语义相关性将音频和视频嵌入与相应类别标签文本特征空间对齐,使用交叉模态解码器和组合三元组损失,在多模态设置中来执行零样本学习,实验证明该方法在各种模态下的推广零样本分类和检索任务中都优于其他模型。
May, 2020
本文提出了一种基于边界的Out-of-Distribution分类器来解决Generalized Zero-Shot Learning问题,其利用共享的潜在空间,在单位超球上对视觉特征和语义属性的潜在分布进行按类别对齐,并通过类中心和边界将未见过的样本与已见过的进行分离,经验证在常见的五个基准数据集上,该方法超越了现有方法的性能表现。
Aug, 2020
该论文提出了基于视频和音频数据的零样本学习方法,通过跨模态注意力学习多模态表示,并利用文本标签嵌入将知识从已见类别转移到未见类别,并在三个不同规模和难度的音视频数据集上进行了基准测试,结果表明,所提出的AVCA模型在所有三个数据集上均取得了最先进的性能。
Mar, 2022
该研究提出了一种多模态和时间交叉注意力框架,可以利用音频和视觉信息的自然语义和时间对齐关系来实现音频-视觉广义零样本学习,并在多个基准测试中取得了最先进的性能。
Jul, 2022
我们提出了一种名为知识感知分布自适应(KDA)的简单而有效的框架,通过使用大型语言模型生成丰富的描述,从而更好地理解未知类别,并引入分布对齐损失和知识感知自适应边界损失来进一步提高对未知类别的泛化能力。在三个受欢迎的音视频零样本学习数据集上,广泛的实验结果表明我们的KDA方法优于现有的最先进方法。
Nov, 2023
通过引入端到端生成式GZSL框架D^3GZSL并采用ID^2SD和O^2DBD两个核心模块,我们解决了GZSL模型中偏向于已见数据的偏见问题,并通过将已见和合成的未见数据作为内分布和外分布数据分别对待,以实现模型的更好平衡。D^3GZSL在嵌入和标签空间中对齐教师和学生的结果,增强了学习的一致性,并且通过在每个批次样本中引入低维度的外分布表示,捕捉了已见和未见类别之间的共享结构。我们的方法在已有的GZSL基准测试中展示了其有效性,并可以无缝地集成到主流的生成式框架中。大量实验一致表明,D^3GZSL提升了现有生成式GZSL方法的性能,凸显了其优化零样本学习实践的潜力。
Feb, 2024
我们提出了一种通用方法,用于在针对下游少样本任务进行精调时提高预训练视觉-语言模型(VLMs)的泛化能力。该方法利用了超出分布(OOD)检测来预测样本是否属于基本分布或新颖分布,然后使用由专门的竞争性评分函数生成的分数来融合零样本和少样本分类器。融合的分类器是动态的,如果样本更可能来自预先训练的分布,则会偏向于零样本分类器,从而提高基本到新颖的泛化能力。我们的方法仅在测试阶段执行,适用于提升现有方法而无需耗时的重新训练。大量实验证明,即使是弱分布检测器也可以改进VLMs的泛化能力。具体来说,在基本到新颖的设置中,在11个识别数据集上,借助OOD检测器,CoOp和ProGrad的调和平均数分别提高了2.6和1.5个百分点。
Mar, 2024
利用预训练模型,包括CLIP和CLAP提取特征,结合文本编码嵌入以提高性能,我们提出了一个仅依赖前馈神经网络的简单而有效的模型来处理音频视觉的零样本学习,并在VGGSound-GZSL、UCF-GZSL和ActivityNet-GZSL等数据集上取得了最先进的性能。
Apr, 2024
简介:该研究提出了一个名为EZ-AVGZL的简单而有效的Easy Audio-Visual Generalized Zero-shot Learning框架,通过将音频-视觉嵌入与转换的文本表示对齐,学习了音频-视觉和文本的模态之间的关系,实现了音频-视觉广义零样本学习中的最先进表现。
Jul, 2024