Apr, 2024

基于单幅图像的三维视角训练数据增强方法对于高效的葡萄酒标签识别的影响

TL;DR为解决复杂图像识别领域中训练数据不足的关键挑战,本论文引入一种新颖的 3D 视角增强技术,专门用于葡萄酒标签识别,通过从单个真实世界的葡萄酒标签图像中生成视觉逼真的训练样本来提高深度学习模型性能,克服了文字和标识的复杂组合带来的挑战。通过扩展训练数据集,充分利用经过时间验证的计算机视觉和图像处理策略,采用 Vision Transformer (ViT) 架构上的批次所有三元度量学习使用增强的训练图像,获得每个葡萄酒标签的最具区分性的嵌入特征,能够对已有训练类别中的葡萄酒标签或未来新收集的葡萄酒标签进行一次识别,实验结果显示与传统 2D 数据增强技术相比,识别准确性显著提高。