HUE: 用于理解韩国古代汉字文献的预训练模型和数据集

ACLOct, 2022

HUE: 用于理解韩国古代汉字文献的预训练模型和数据集

HUE: Pretrained Model and Dataset for Understanding Hanja Documents of Ancient Korea

Haneul Yoo, Jiho Jin, Juhee Son, JinYeong Bak, Kyunghyun Cho...

TL;DR本篇研究旨在建立、评估韩字理解的语言模型，为此发布了包含了年代归属、主题分类、命名实体识别和概要检索任务的 Hanja Understanding Evaluation 数据集。同时，还在朝鲜王朝的官方纪事 Annals 和 Royal Secretariats 的两个重要文献语料库上训练了 BERT 模型，并将它与几个基线模型进行了比较，发现训练在这两个文献上的模型具有显著改进。此外，还在历史学研究中尚未被广泛研究的 DRRI 数据集上进行了零样本实验。

Abstract

Historical records in Korea before the 20th century were primarily written in hanja, an extinct language based on Chinese characters and not understood by modern Korean or Chinese speakers. Historians with expertise in this time period have been analyzing the documents, but that proces

hanja language models chronological attribution topic classification named entity recognition

发现论文，激发创造

将汉字历史文献翻译成现代韩语和英语

该研究提出一种基于神经机器翻译的模型 H2KE，用于将朝鲜王朝的史料由汉字文献翻译成易于理解的现代韩文和英文，并发现该方法在 BLEU 分数和人工评估中相对于传统方法有更好的表现。

May, 2022

使用神经语言模型和机器翻译技术还原和挖掘朝鲜时代的记录

本文提出了一种基于自我关注机制的多任务学习方法，用于恢复和翻译历史文献，并通过主题建模进行了深入的探索分析，揭示了多个重要历史事件。

Apr, 2021

HistRED：历史文档级关系抽取数据集

研究通过 HistRED 数据集中的 Hanja 和韩国文本，提出了一种双语关系抽取模型，证明多语言背景可以补充关系抽取预测。

Jul, 2023

穿越数个世纪的迁移学习：机器和历史学家集成方法解密王室秘书日记

该研究介绍了朝鲜历史文献中的命名实体识别和分类，通过将语言模型调整到历史文献上，与使用预训练的多语言模型进行对比实验，发现短语标记明显改善了 NER 模型在预测不同时间段撰写的未见过的实体时的性能。

Jun, 2023

hmBERT: 历史多语言语言模型用于命名实体识别

本篇研究讨论了针对历史文本进行命名实体识别的挑战，并提出使用大型历史语言模型 hmBERT 预训练来解决标注数据不充足的问题，并使用 HIPE-2022 共享任务来评估模型性能。

May, 2022

实现有效的古代中国翻译：数据集，模型和评估

我们提出了针对古代汉语的《尔雅》翻译方法，该方法通过从各种来源收集、清理和分类古代汉语材料，形成迄今为止最广泛的古代汉语资源。我们设计了两个同时运作的任务：双音节对齐替代（DAS）和双层掩蔽语言模型（DMLM）。在不同场景下，我们建立了基准来评判古代汉语翻译质量，并评估了各种现有模型的古代汉语翻译能力。我们的模型在五个领域展现了卓越的零 - shot 性能，与 GPT-3.5 模型相比具有 + 12.0 BLEU 的得分，并且在人工评估结果上优于 ERNIE Bot。随后的微调进一步展示了《尔雅》模型的卓越转移能力，获得了 + 6.2 BLEU 的提升。我们在此链接上发布了上述所有资源。

Aug, 2023

不止于皮毛：用汉字增强韩语的词表示

本文提出一种使用汉字等额外语言注释来改善韩文单词表示的简单而有效的方法，通过跨语言迁移学习来训练单词表示，以检验通过此方法学习到的表示的内在质量，并证明其在几种下游任务中的有效性，包括一项新颖的韩国新闻标题生成任务。

Aug, 2019

HAE-RAE Bench：韩国知识在语言模型中的评估

通过在 HAE-RAE 评估中发现，相较于全面的通用模型 GPT-3.5，大规模的语言特定模型 (LLSMs) 在语言特定知识检索方面展现出类似的性能水平，强调了使用同质化语料库来训练专业级语言特定模型的重要性，但较小的 LLMs 在生成结构化回答时表现出令人困惑的性能下降。

Sep, 2023

GujiBERT 和 GujiGPT：建立智能信息处理基础语言模型的古代文本

我们介绍了古籍 BERT 和古籍 GPT 这两个基础模型，通过在包含简体和繁体中文字符的数据集上训练，这两个模型可以有效地处理与古籍相关的自然语言处理任务，这表明了使用自监督方法进一步训练模型能够提高其应对下游任务的能力。同时，我们开发了三个不同类别的共九个模型变体，以满足数字人文和语言学研究人员的不同文本处理偏好。

Jul, 2023

密超化粉 1.0：面向特定领域大模型的专用预训练语料数据集

通过评估现有的大模型在专门领域中的限制性，本文引入了 “MiChao-HuaFen 1.0” 预训练语料库数据集，旨在为新闻和政府领域提供高质量和可靠来源，支持中文行业特定大模型的预训练，并促进相关领域深度学习研究和应用。

Sep, 2023