Python 中的日语词汇剖析工具 fugashi

EMNLPOct, 2020

Python 中的日语词汇剖析工具 fugashi

fugashi, a Tool for Tokenizing Japanese in Python

Paul McCann

TL;DR本文介绍了 fugashi，这是一个用于 Python 的 MeCab 包装器，以及介绍了如何对日本语进行分词。

Abstract

Recent years have seen an increase in the number of large-scale multilingual NLP projects. However, even in such projects, languages with special processing requirements are often excluded. One such language is japanese. →

multilingual nlp projects japanese tokenization mecab wrapper python

发现论文，激发创造

脚本连续语言中不同的分词器在下游任务中的表现？：以日语为例的案例研究

本文旨在研究分词器对预训练语言模型在 scriptio continua 语言（如日语）下游性能的影响，结果表明对于任何类型的任务，使用 Byte-Pair-Encoding 或 Unigram 作为子词分割器都比 WordPiece 更佳，并且每个下游任务都有一个不同的最佳形态分析器。

Jun, 2023

使用子词单元提取日本虚构角色的语言言论模式

本文提出了一个解决 MeCab 等传统词法分析器不能很好处理日本动画或游戏角色台词的问题的方法，该方法使用了为深度学习提出的子单元切割行文，并提取频繁出现的字符串来获得表征角色台词的表达式。经过性别、年龄以及日本动画中各个角色的分析，发现这些切割出来的子单元是特定于每一特征的语言表达模式，实验表明这种方法在分类上胜于传统方法。

Mar, 2022

SentencePiece: 一种简单且独立于语言的子词标记器和去标记器，用于神经文本处理

本文介绍了 SentencePiece，一种语言无关的子单词标记器和去标记器，旨在用于神经文本处理，包括神经机器翻译。它提供了 C++ 和 Python 的开源实现来得到子单词，并能够直接从原始语句中生成子单词模型，从而实现纯粹的端到端系统和语言无关性。我们对英日机器翻译的 NMT 进行了验证实验，并发现与直接使用原始语句的子单词训练相比，可以实现相当的准确性。我们还使用不同配置比较了子单词训练和分割的性能。SentencePiece 可在 Apache 2 许可证下获得：https:// 该网址。

Aug, 2018

miditok: 一个用于 MIDI 文件分词的 Python 软件包

近期自然语言处理进展中，语言模型如 Transformers 已被应用于符号音乐，可用于音乐生成、建模或转录，拥有最先进的性能。为了对骨干模型进行音乐编码和解码，需要依赖于令牌化器，其作用是将音乐序列化为称为令牌的不同元素序列。MidiTok 是一个开源库，提供对符号音乐进行令牌化的灵活性和扩展功能，具备最受欢迎的音乐令牌化，并具备统一的 API，旨在方便所有人使用和扩展。

Oct, 2023

HuSpaCy：一种工业级匈牙利自然语言处理工具包

本篇论文介绍了 HuSpaCy，这是一个针对匈牙利语的工业级自然语言处理工具包，包括词干提取、形态句法分析、实体识别和词嵌入等组件，并以 spaCy 的 NLP 组件为基础构建，能够高效而准确地完成文本处理任务。

Jan, 2022

神经机器翻译中的日语谓词变化

本研究提出了一种基于谓词词形变化的日本语 - 英语神经机器翻译方法，将词汇表中各种动词形式压缩为更少的单词，并通过属性词汇信息生成低频词汇和处理未知词汇，有效地压缩词汇表的大小，并在翻译中提高了 BLEU 分数。

May, 2018

使用 BI-LSTM CRF 模型进行日语平假名句子的形态分析

该研究提出了一种使用 Bi-LSTM CRF 模型开发日语 Hiragana 句子形态分析神经模型的方法，并证明了 fine-tuning 技术的有效性，并探究了训练数据对于文本不同类型的影响。

Jan, 2022

评估波斯语分词器

此研究比较了波斯语最广泛使用的标记工具的性能，并使用预先标记的波斯语依赖数据集进行了评估，得出结论表明修复构词的 Farsi Verb 和 Hazm 混合版本的表现最佳，达到 98.97% 的 F1 得分。

Feb, 2022

Stanza：一个针对多种自然语言的 Python 自然语言处理工具包

Stanza 是一个支持 66 种人类语言的 Python 自然语言处理工具包，具有语言无关的完全神经管道，包括标记化，词形变化，词性和形态特征标记，依存分析和命名实体识别。

Mar, 2020

Vaporetto：基于改进的逐点线性分类的高效日语分词

本文提出了一种改进日语分词运行效率的方法，基于点对点线性分类（PLC）框架，通过将整个分词过程化简为一系列线性分类问题，通过利用 PLC 框架和任务定义的特点来优化分词，包括通过组合多个分类为基于数组的操作，通过内存优化的自动机实现高效的特征查找，以及三种正交的预处理方法用于减少实际得分计算，从而使得分词速度比当前基于相同模型的方法提高 5.7 倍而不降低分词准确性。

Jun, 2024