Apr, 2025

朝向可解释的人工智能:基于视频的图像描述生成的多模态变压器

TL;DR本研究针对视频数据集生成自然语言描述的问题,通过结合文本和视觉模态提出了一种新框架。该框架利用ResNet50提取视频帧的视觉特征,随后通过基于GPT-2的编码解码模型生成描述,显著提高了描述的质量和可解释性,尤其在实际应用中具有重要影响。