一个用于甲骨文演化的开放数据集：EVOBC

Jan, 2024

一个用于甲骨文演化的开放数据集：EVOBC

An open dataset for the evolution of oracle bone characters: EVOBC

Haisu Guan, Jinpeng Wan, Yuliang Liu, Pengjie Wang, Kaile Zhang...

TL;DR通过构建一个包含 13,714 个不同字符类别的含有 229,170 张图片的 EVolution Oracle Bone Characters (EVOBC) 数据集，本研究展示了该数据集在辅助研究甲骨文上的作用，通过研究字符形式的演变来帮助解读甲骨文。

Abstract

The earliest extant Chinese characters originate from oracle bone inscriptions, which are closely related to other East Asian languages. These inscriptions hold immense value for anthropology and archaeology. However, deciphering →

oracle bone script ancient chinese characters deciphering evolution dataset

发现论文，激发创造

一个用于甲骨文识别和解读的开放数据集

创造了华中科技大学甲骨学数据集，包括 77,064 张已解码甲骨文字图像和 62,989 张未解码字符的图像，共计 140,053 张图像，为未知甲骨文字的解码研究提供了帮助。

Jan, 2024

扩散模型解读甲骨文语言

通过采用图像生成技术，本文引入了一种新颖的方法，即通过开发 Oracle Bone Script Decipher (OBSD)—— 一种基于条件扩散策略的图像生成方法，为 Oracle Bone Script（OBS）解密提供重要线索，为古代语言的人工智能辅助分析开辟了新的道路。

Jun, 2024

拼图选择器：通过偏旁字重构解读古代汉字

通过使用 Puzzle Pieces Picker（P$^3$）这一新颖方法进行基体重建，该研究旨在解密大量未解谜的甲骨文，以揭示这种古老文字的秘密，并通过开发 Ancient Chinese Character Puzzles（ACCP）数据集，能够更好地理解中国古代文字的历史和文化背景。

Jun, 2024

侯马联盟书古代手写文字新数据库及分类器融合方法

本文提出了一个新的数字化的厚磨联盟书古代手写字符数据库以及多模式融合方法，旨在提高辨认古代字符的效率并提供更可靠的技术支持和文本数据。实验结果首先为新数据库提供了基准结果，然后证明了我们提出的方法的效率。

Jul, 2022

自然场景下的中文识别

介绍一个街景图中的大规模中文文本数据集，该数据集包含超过 30,000 张街景图中的大约 1 百万个中文字符，同时提供基准结果使用 AlexNet，OverFeat，Google Inception 和 ResNet 进行字符识别，使用 YOLOv2 进行字符检测。

Feb, 2018

基于图像的字符识别，从寺庙解码铭文的文档系统

该研究训练和分析应用于位于 Brihadeeswarar Temple 墙壁上发现的 10 世纪古代泰米尔铭文的光学字符识别（OCR）方法，其中选择的 OCR 方法包括使用现代 ICR 技术预处理原始数据的 Tesseract（一种广泛使用的 OCR 引擎）和一个框编辑软件来调优我们的模型，通过 Tesseract 的分析来评估它们在准确解读古代泰米尔字符方面的有效性，我们的模型在数据集上的性能通过准确率来确定，该数据集被划分为训练集和测试集，通过解决脚本的历史背景所带来的独特挑战，该研究旨在为 OCR 领域的改进保存和解释古代铭文做出有价值的贡献。

May, 2024

使用无监督判别一致性网络进行 Oracle 字符识别

提出了一种新的无监督领域适应方法，通过伪标签和约束增强一致性，从标记的人工手写神谕字符向未标记的扫描数据中传递知识，使模型在磨损、污渍和失真下更加鲁棒。同时，提出了一种无监督的转移损失，通过优化类间和类内转移概率，在扫描领域上学习更有辨别力的特征。大量实验表明，我们的方法在 Oracle-241 数据集上实现了最先进的结果，并且在最近提出的结构纹理分离网络上性能提升了 15.1%。

Dec, 2023

面向零样本字符识别的黄金标准数据集及基于部首级别的标注

构建一个包含基本水平和字符水平注释的古代汉字图像数据集，并提出一种基于字符分解和重组的零样本光学字符识别基准模型，实验证明了数据集和基准模型的有效性。

Aug, 2023

AGTGAN: 面向摄影古文字生成的无配对图像翻译

本文提出一种基于生成对抗网络的无监督方法，能够生成具有多样的字形和真实纹理的古代文字图像，该方法在分类准确率等方面表现出色。

Mar, 2023

HUE: 用于理解韩国古代汉字文献的预训练模型和数据集

本篇研究旨在建立、评估韩字理解的语言模型，为此发布了包含了年代归属、主题分类、命名实体识别和概要检索任务的 Hanja Understanding Evaluation 数据集。同时，还在朝鲜王朝的官方纪事 Annals 和 Royal Secretariats 的两个重要文献语料库上训练了 BERT 模型，并将它与几个基线模型进行了比较，发现训练在这两个文献上的模型具有显著改进。此外，还在历史学研究中尚未被广泛研究的 DRRI 数据集上进行了零样本实验。

Oct, 2022