通过编码器 - 解码器模型实现珠宝识别

Jan, 2024

通过编码器 - 解码器模型实现珠宝识别

Jewelry Recognition via Encoder-Decoder Models

José M. Alcalde-Llergo, Enrique Yeguas-Bolívar, Andrea Zingoni, Alejandro Fuerte-Jurado

TL;DR利用计算机视觉技术和图像字幕的方法进行珠宝识别，通过生成自然语言描述，将珠宝进行分类，然后利用此方法准确识别不同类型的珠宝，并具有在珠宝电子商务、库存管理或自动珠宝识别等应用中的潜力。

Abstract

jewelry recognition is a complex task due to the different styles and designs of accessories. Precise descriptions of the various accessories is something that today can only be achieved by experts in the field of jewelry. In this work, we propose an approach for →

jewelry recognition computer vision techniques image captioning accessory classification dataset

发现论文，激发创造

基于 CNN 编码器 - 解码器框架的压缩图像字幕生成

我们的项目旨在通过开发结合卷积神经网络（CNN）和编码 - 解码模型的自动图像字幕架构来解决图像字幕的挑战。我们还进行了性能比较，研究了多种预训练 CNN 模型的性能变化，并探索了频率正则化技术在压缩 “AlexNet” 和 “EfficientNetB0” 模型方面的整合，旨在在更节省资源的同时保持模型的有效性。

Apr, 2024

视频字幕解码器的深度挖掘

本篇研究针对视频字幕模型的解码问题，通过三种技术改进模型的性能，包括使用变分 Dropout 和层归一化改善过拟合问题、提出在线评估模型性能以选择最佳测试检查点的方法、提出专业学习的新训练策略。在 Microsoft Research Video Description Corpus (MSVD) 和 MSR-Video to Text (MSR-VTT) 数据集上进行的实验证明，相较于之前最先进的模型，我们的模型在 BLEU、CIDEr、METEOR 和 ROUGE-L 指标上获得了显著的成果，其中在 MSVD 数据集上提升了高达 18%，在 MSR-VTT 数据集上提升了 3.5%。

Jan, 2020

现实世界图像描述和场景识别的全面分析

图像字幕生成是一项计算机视觉任务，涉及为图像生成自然语言描述，本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。

Aug, 2023

时尚字幕生成：基于语义奖励的准确描述生成

本文介绍了一种新颖的学习框架，结合属性级语义，句子级语义和强化学习来生成精确的时尚图片描述，同时构建了一个新的时尚图片描述数据集以证明模型的有效性。

Aug, 2020

注意力束：一种图像字幕方法

通过加入启发式的 beam search 策略，我们在基于 encoder-decoder 的架构上取得了比较好的效果，成功地完成了图像描述生成任务。

Nov, 2020

使用深度神经网络架构进行图像字幕生成

该文讨论了图像字幕生成的各种模型，描述了对象识别和机器翻译的进展以及如何实现该模型，最后使用标准评估矩阵评估了该模型的性能。

Jan, 2018

面向图像标注的检索增强架构

通过利用外部的 kNN 内存来改善生成过程，本研究提出了两个模型变体，这些模型变体结合了基于视觉相似性的知识检索器组件、可微分编码器以及基于上下文线索和从外部存储器中检索的文本来预测标记的 kNN 增强语言模型。在 COCO 和 nocaps 数据集上的实验证实了我们的方法，证明了显式外部存储器的纳入可以显著提高标题的质量，尤其是在更大的检索语料库中。此研究为改善大规模的图像字幕生成打开了新的研究方向。

May, 2024

图像字幕

这篇论文讨论了我们在图像字幕生成实验中的结果，并展示了我们的模型准确性以及从图像描述中学习的语言的流畅性，在几个标记数据集上进行了实验。我们将图像字幕应用于创建视频字幕，并提出了一些挑战性的假设。

May, 2018

基于自然语言的目标描述和检索

本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法，并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明，使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题，并在推理时间非常快的同时，提供了对对象的详细理解。

Mar, 2018

神经时尚图片字幕生成：考虑数据多样性

本研究使用 InFashAIv1 和 DeepFashion 数据集，使用 Show and Tell 算法生成时尚图片的描述，取得更好的效果，并发现对于非洲风格的时尚图片，联合训练提高了图像描述质量，表明西方风格数据的迁移学习是可行的，释放了 InFashAIv1 数据集以促进更多包容性工作。

Jun, 2021