韩语语言处理的次字符架构

EMNLPJul, 2017

A Sub-Character Architecture for Korean Language Processing

Karl Stratos

TL;DR本文提出一种新颖的子字符架构，利用韩语的独特组合结构将每个字符分解为一小组基本音韵单元，称为 “jamo 字母”，从而诱导字符和单词级别的表征。 jamo 字母透露出难以通过传统的字符级单元访问的句法和语义信息。它们显著缓解了数据稀疏性问题，在实验中减少了观察空间的原始空间的 1.6％，并在依赖解析中取得了显着的优化效果。

Abstract

We introduce a novel sub-character architecture that exploits a unique compositional structure of the korean language. Our method decomposes each character into a small set of primitive phonetic units called

sub-character architecture korean language jamo letters data sparsity problem dependency parsing

发现论文，激发创造

探究在韩语句子分类中的有效字符级嵌入

使用韩语作为案例语言，比较使用不同编码方案（Jamo 级别独热、字符级别独热、字符级别稠密、字符级别多热）所得到的分类效果，结果显示字符级别特征较优秀。

May, 2019

通过语言学信息的次词单位分词和次字符分解来提升韩文 NLP 任务

我们介绍了一种考虑词素的子词切分方法，利用字符的分解方法来解决字节对编码（BPE）在韩语中应用所面临的挑战，韩语的特点是丰富的语态和独特的书写系统。我们的方法在预训练语言模型（PLMs）中平衡了语言准确性和计算效率。我们的评估结果显示，该技术在整体上表现良好，显著提高了 NIKL-CoLA 句法任务的结果。这表明融合词素类型信息可以增强语言模型的句法和语义能力，表示采用更多的语言洞察力可以进一步提高性能，超越标准的形态分析。

Nov, 2023

韩语形态分析和词性标注的丰富字符级信息

本研究提出了一种基于多阶段行动的模型，可对韩语进行形态学转换和词性标注，使用双向长短时记忆网络模型对 Sejong 韩国语语料库实现了词和句子级别的标记精度，达到了无先验语言知识的同类模型的最新交状态。

Jun, 2018

利用字符分解解决韩文 OCR 中类不平衡问题

本研究提出了一种新颖的方法，使用图形编码直接进行韩文字符（Hangul）的 OCR，以解决现有编码方法在长尾字符分布上性能不佳的问题。我们的方法有效地解决了 Hangul OCR 的两个主要问题：类别不平衡和目标类别选择。

Aug, 2022

利用子字符级信息的表意文字神经机器翻译

该研究着眼于汉字与英文字母等不同书写语言之间的差异，并使用了一种简单的方法来利用汉字更细致的结构信息，以提高神经机器翻译系统的性能。结果表明，这种方法不仅改进了汉英翻译，还进一步改进了汉日翻译，因为它利用了类似汉字部首的共享信息。

Sep, 2018

基于卷积神经网络的字符构成模型用于形态丰富语言的依存句法分析

该研究提出了一种基于转移的依存句法分析器，使用卷积神经网络来从字符中组合单词表示。字符组合模型在解析结合语言方面表现出显著的改进，这些改进甚至比使用额外数据训练的预训练词嵌入模型更好。在 SPMRL 数据集上，与之前最好的贪心解析器相比，我们的系统平均提高了 3％的表现。

May, 2017

中文预训练语言模型的子字分词

为了利用中文语言系统中存在的字符下的语言信息，我们提出了一种基于 SubChar (即 SubCharacter) 的分词方法，该方法通过将每个汉字转换为一个基于其字形或发音的短序列，再基于编码后的文本进行子词分割来构建词汇表，实验结果表明 SubChar 的分词器相比现有分词器有两个主要优势：它们可以将输入标记为更短的序列，从而提高计算效率；以发音为基础的 SubChar 分词器可以将中文同音字编码为相同的音译序列并产生相同的标记化输出，从而具有抗同音错误的鲁棒性。

Jun, 2021

使用子词单元提取日本虚构角色的语言言论模式

本文提出了一个解决 MeCab 等传统词法分析器不能很好处理日本动画或游戏角色台词的问题的方法，该方法使用了为深度学习提出的子单元切割行文，并提取频繁出现的字符串来获得表征角色台词的表达式。经过性别、年龄以及日本动画中各个角色的分析，发现这些切割出来的子单元是特定于每一特征的语言表达模式，实验表明这种方法在分类上胜于传统方法。

Mar, 2022

利用视觉特征学习字级组合性

本文提出了一种针对汉字、日语、韩语等语言内所含罕见字符提高识别准确度的模型，它基于字符的构成并通过卷积神经网络生成视觉上的字符嵌入。实验结果表明该模型可更好地处理具有稀有字符的语言文本，并且能够学习集中于传达语义信息的字符部件，从而生成具有视觉一致性的字符嵌入。

Apr, 2017

基于字符识别的神经语言模型

本研究描述了一种仅依赖字符级输入的简单神经语言模型，该模型利用卷积神经网络和字符级公路网络作为输入，并将结果给予一种长短时记忆递归神经网络语言模型作为输出，该模型可以用较少的参数占据现有最先进的地位。此外，该模型表现出色的证明了许多语言所需的字符输入已经足够进行语言建模，且可以从字符组成的部分编码的单词表示中得到语义和字形信息。

Aug, 2015