May, 2019

Fonts-2-Handwriting: 一个通用数字分类的种子增强训练框架

TL;DR提出了一种基于Seed-Augment-Train/Transfer(SAT)框架的方法,该方法使用可自由获取的开放字体文件数据集生成具有不同数字系统语言的人造种子图像数据集,然后通过增强种子数据集来创建纯合成训练数据集,进而通过训练深度神经网络并在跨越五种印刻文字(卡纳达语、泰米尔语、古吉拉特语、马拉雅拉姆语和天城体梵文)的现实世界手写数字数据集上测试,展示了该方法的有效性。通过训练Boundary-seeking GAN来生成五种语言的逼真数字符号图像,并将在合成数据集上训练的CNN用于现实世界数据集上的测试,从而建立了字体数据集世界和迁移学习之间的有趣关系,并为任何语言系统中的通用数字分类提供了一种方法。