通过编码器 - 解码器模型实现珠宝识别
我们的项目旨在通过开发结合卷积神经网络(CNN)和编码 - 解码模型的自动图像字幕架构来解决图像字幕的挑战。我们还进行了性能比较,研究了多种预训练 CNN 模型的性能变化,并探索了频率正则化技术在压缩 “AlexNet” 和 “EfficientNetB0” 模型方面的整合,旨在在更节省资源的同时保持模型的有效性。
Apr, 2024
本篇研究针对视频字幕模型的解码问题,通过三种技术改进模型的性能,包括使用变分 Dropout 和层归一化改善过拟合问题、提出在线评估模型性能以选择最佳测试检查点的方法、提出专业学习的新训练策略。在 Microsoft Research Video Description Corpus (MSVD) 和 MSR-Video to Text (MSR-VTT) 数据集上进行的实验证明,相较于之前最先进的模型,我们的模型在 BLEU、CIDEr、METEOR 和 ROUGE-L 指标上获得了显著的成果,其中在 MSVD 数据集上提升了高达 18%,在 MSR-VTT 数据集上提升了 3.5%。
Jan, 2020
图像字幕生成是一项计算机视觉任务,涉及为图像生成自然语言描述,本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。
Aug, 2023
本文介绍了一种新颖的学习框架,结合属性级语义,句子级语义和强化学习来生成精确的时尚图片描述,同时构建了一个新的时尚图片描述数据集以证明模型的有效性。
Aug, 2020
通过利用外部的 kNN 内存来改善生成过程,本研究提出了两个模型变体,这些模型变体结合了基于视觉相似性的知识检索器组件、可微分编码器以及基于上下文线索和从外部存储器中检索的文本来预测标记的 kNN 增强语言模型。在 COCO 和 nocaps 数据集上的实验证实了我们的方法,证明了显式外部存储器的纳入可以显著提高标题的质量,尤其是在更大的检索语料库中。此研究为改善大规模的图像字幕生成打开了新的研究方向。
May, 2024
这篇论文讨论了我们在图像字幕生成实验中的结果,并展示了我们的模型准确性以及从图像描述中学习的语言的流畅性,在几个标记数据集上进行了实验。我们将图像字幕应用于创建视频字幕,并提出了一些挑战性的假设。
May, 2018
本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法,并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明,使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题,并在推理时间非常快的同时,提供了对对象的详细理解。
Mar, 2018
本研究使用 InFashAIv1 和 DeepFashion 数据集,使用 Show and Tell 算法生成时尚图片的描述,取得更好的效果,并发现对于非洲风格的时尚图片,联合训练提高了图像描述质量,表明西方风格数据的迁移学习是可行的,释放了 InFashAIv1 数据集以促进更多包容性工作。
Jun, 2021