一个用于甲骨文演化的开放数据集:EVOBC
创造了华中科技大学甲骨学数据集,包括 77,064 张已解码甲骨文字图像和 62,989 张未解码字符的图像,共计 140,053 张图像,为未知甲骨文字的解码研究提供了帮助。
Jan, 2024
通过采用图像生成技术,本文引入了一种新颖的方法,即通过开发 Oracle Bone Script Decipher (OBSD)—— 一种基于条件扩散策略的图像生成方法,为 Oracle Bone Script(OBS)解密提供重要线索,为古代语言的人工智能辅助分析开辟了新的道路。
Jun, 2024
通过使用 Puzzle Pieces Picker(P$^3$)这一新颖方法进行基体重建,该研究旨在解密大量未解谜的甲骨文,以揭示这种古老文字的秘密,并通过开发 Ancient Chinese Character Puzzles(ACCP)数据集,能够更好地理解中国古代文字的历史和文化背景。
Jun, 2024
本文提出了一个新的数字化的厚磨联盟书古代手写字符数据库以及多模式融合方法,旨在提高辨认古代字符的效率并提供更可靠的技术支持和文本数据。实验结果首先为新数据库提供了基准结果,然后证明了我们提出的方法的效率。
Jul, 2022
介绍一个街景图中的大规模中文文本数据集,该数据集包含超过 30,000 张街景图中的大约 1 百万个中文字符,同时提供基准结果使用 AlexNet,OverFeat,Google Inception 和 ResNet 进行字符识别,使用 YOLOv2 进行字符检测。
Feb, 2018
该研究训练和分析应用于位于 Brihadeeswarar Temple 墙壁上发现的 10 世纪古代泰米尔铭文的光学字符识别(OCR)方法,其中选择的 OCR 方法包括使用现代 ICR 技术预处理原始数据的 Tesseract(一种广泛使用的 OCR 引擎)和一个框编辑软件来调优我们的模型,通过 Tesseract 的分析来评估它们在准确解读古代泰米尔字符方面的有效性,我们的模型在数据集上的性能通过准确率来确定,该数据集被划分为训练集和测试集,通过解决脚本的历史背景所带来的独特挑战,该研究旨在为 OCR 领域的改进保存和解释古代铭文做出有价值的贡献。
May, 2024
提出了一种新的无监督领域适应方法,通过伪标签和约束增强一致性,从标记的人工手写神谕字符向未标记的扫描数据中传递知识,使模型在磨损、污渍和失真下更加鲁棒。同时,提出了一种无监督的转移损失,通过优化类间和类内转移概率,在扫描领域上学习更有辨别力的特征。大量实验表明,我们的方法在 Oracle-241 数据集上实现了最先进的结果,并且在最近提出的结构纹理分离网络上性能提升了 15.1%。
Dec, 2023
构建一个包含基本水平和字符水平注释的古代汉字图像数据集,并提出一种基于字符分解和重组的零样本光学字符识别基准模型,实验证明了数据集和基准模型的有效性。
Aug, 2023
本篇研究旨在建立、评估韩字理解的语言模型,为此发布了包含了年代归属、主题分类、命名实体识别和概要检索任务的 Hanja Understanding Evaluation 数据集。同时,还在朝鲜王朝的官方纪事 Annals 和 Royal Secretariats 的两个重要文献语料库上训练了 BERT 模型,并将它与几个基线模型进行了比较,发现训练在这两个文献上的模型具有显著改进。此外,还在历史学研究中尚未被广泛研究的 DRRI 数据集上进行了零样本实验。
Oct, 2022