KaoKore:一个日本前现代艺术面部表情数据集
本研究提出了使用一种新的端到端模型KuroNet来识别日文草书体,并转录为现代日本字符。通过预测整个文本页中所有字符的位置和标识,该模型可以处理长距离上下文、大词汇量和非标准化字符布局。我们证明了该系统能够成功识别大部分旧式日本文献,同时也探讨了系统局限性,并提出了未来工作的方向。
Oct, 2019
本文介绍了Manga109数据集,这是一个包含109本日本漫画的数据集,提供了超过500k的图片和注释,为深度学习算法和其评估提供了很好的资源,同时还展示了通过该数据集实现的多媒体处理应用程序(检测、检索和生成)的几个示例。
May, 2020
本文介绍了一种机器学习系统,可以用视觉元素和艺术原则对美术作品进行量化分析。通过代理学习机制,该框架可以解决诸如高视觉复杂性和训练数据不足的实际限制问题,并在 Visual Concepts 数量化方面得到证实。
Jan, 2022
本文提出了一个挑战性的动漫风格识别基准测试,并收集了一个大规模的动漫作品数据集进行评估,以验证风格学习而非特定角色学习的抽象画风识别模型。使用两种强大的人物重识别方法构建了基准性能,并发现TransReID在该数据集上的mAP仅为42.24%,进一步表明了这一具有巨大语义差距的ASR任务需要深入研究。
Apr, 2022
本文提出了一种在艺术历史图像中估计人类姿势的新方法,通过半监督学习对目标和关键点检测进行了改进,并且引入了一个包括人体姿势标注的新领域特定艺术数据集,相对于使用预训练模型或风格转移的方法,达到了显著更好的结果。
Jul, 2022
通过数字化古代近东研究(DANES)社区的挑战,我们开发了用于处理楔形文字的数字工具,这是一种镌刻在泥板上的三维文字,使用了三千多年和至少八种主要语言。我们创建和使用了HeiCuBeDa和MaiCuBeDa数据集,包含约500个带注释的泥板。我们的新型OCR样式方法针对混合图像数据,提供了一种在三维渲染和照片之间转移注释的映射工具。我们使用GigaMesh的MSII(曲率,参见此处链接)基于渲染、Phong阴影的三维模型和照片以及光照增强的图像数据进行符号定位。结果显示,使用渲染的3D图像进行符号检测比其他研究使用的照片效果更好。此外,我们的方法在仅使用照片时也能得到合理的结果,但在混合数据集中效果最好。更重要的是,Phong渲染,特别是MSII渲染,提高了照片的结果,这是全球规模最大的数据集。
Aug, 2023
我们的研究通过合成数据的方法,为古代亚述文字符号生成了大规模的数据集,以此训练人工神经网络以提高掌握这些古代碑文的能力。通过验证实验,我们验证了该模型在处理多样的真实场景中的能力,并证明了我们合成数据方法的可行性,避免了对稀缺的训练数据的依赖,从而提高了对受损碑文的解读准确性和对历史资源的知识提取。
Oct, 2023
通过比较分析AI生成的艺术与人类艺术,揭示了生成式机器学习在艺术创作中的创造潜力,发现AI生成的艺术作品与现代艺术概念相关,同时通过色彩构成和主题熟悉度来推测艺术品的喜好和情感体验。
Feb, 2024
本研究探讨了大型视觉语言模型(VLMs)在艺术作品分类,特别是绘画风格分类中的表现,这一领域通常由艺术史学家主导。通过分析四种VLMs并利用两个公共艺术作品基准,我们发现这些模型在艺术风格、作者和时期的零样本分类中表现出一定的能力,推动了艺术作品分类的研究进展。
Sep, 2024