回归模式：使用特征序列 Trie 进行高效的日本语形态分析

ACLMay, 2023

回归模式：使用特征序列 Trie 进行高效的日本语形态分析

Back to Patterns: Efficient Japanese Morphological Analysis with Feature-Sequence Trie

Naoki Yoshinaga

TL;DR本研究使用最快的基于模式的 NLP 方法，以提高其精度，从而为日语提供简单而准确的形态分析器，该方法可以每秒处理超过 1,000,000 个句子在现代 CPU 上，而与学习为基础的基线相比呈现出相当的准确性。

Abstract

Accurate neural models are much less efficient than non-neural models and are useless for processing billions of social media posts or handling user queries in real time with a limited budget. This study revisits

neural models nlp methods morphological analyzer japanese throughput

发现论文，激发创造

使用 BI-LSTM CRF 模型进行日语平假名句子的形态分析

该研究提出了一种使用 Bi-LSTM CRF 模型开发日语 Hiragana 句子形态分析神经模型的方法，并证明了 fine-tuning 技术的有效性，并探究了训练数据对于文本不同类型的影响。

Jan, 2022

使用序列解码器进行形态分析

本文介绍 Morse，一种循环编码器解码器模型，用于生成语句中每个单词的形态分析。该模型可生成单独的形态特征，表现出色且能处理少见标签和各种复杂语言。

May, 2018

利用形态信息增强深度神经网络

通过将词汇学特征添加到 LSTM 和 BERT 模型中，我们比较了多种语言中命名实体识别、依赖解析和评论过滤任务的基线和改进模型表现，结果显示，根据所添加的特征的质量和任务的不同，这些特征对于 LSTM 的 NER 和 DP 任务表现提升效果较好，而不太适用于 CF 任务；对于 BERT，只有在高质量特征时才会对 DP 表现有所改善，而且相对于强大的多语言 BERT 模型，语言特异性 BERT 变体的改善程度较小。

Nov, 2020

使用子词单元提取日本虚构角色的语言言论模式

本文提出了一个解决 MeCab 等传统词法分析器不能很好处理日本动画或游戏角色台词的问题的方法，该方法使用了为深度学习提出的子单元切割行文，并提取频繁出现的字符串来获得表征角色台词的表达式。经过性别、年龄以及日本动画中各个角色的分析，发现这些切割出来的子单元是特定于每一特征的语言表达模式，实验表明这种方法在分类上胜于传统方法。

Mar, 2022

基于形态学建模的低资源神经机器翻译

在低资源环境中，提出了一种用于模拟复杂形态的框架解决方案，该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器，提高了机器翻译性能，并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术，提高了在低资源环境中的翻译性能，最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能，希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。

Apr, 2024

基于字符的神经元形态标注方法用于形态丰富语言

本文探讨了适用于复杂形态和大标注集语言的神经字符基础形态标注，结合双向 LSTMs 建模跨单词上下文，发现网络架构和预训练词嵌入向量在‘简单’模型配置的情况下对准确度产生重要影响，通过增加深度优化神经网络可显著提高标注器准确度，最终德语和捷克语的最佳形态标注器性能显著优于文献中最好结果。

Jun, 2016

使用削减对齐和音位对应模式进行快速自动音系重建的新框架

本文介绍了一种新的计算机模型，该模型结合了最先进的自动化序列比对技术和新颖的语音对准分析技术以及声音对应模式检测技术，可用于监督祖先语言的单词形态学恢复，测试结果表明该方法既快速又易于实现和扩展。

Apr, 2022

使用带有注意力机制的树形结构长短期记忆网络进行日语情感分类

使用树形 LSTM 和注意力机制，无需短语级标注语料库，在日本情感分类任务中达到了最先进的性能。

Apr, 2017

神经机器翻译模型学到了什么关于形态学？

本文研究神经机器翻译的表示，探讨其对源语言和目标语言的理解以及对单词结构学习的影响，发现了一些关键参数对表示的影响

Apr, 2017

捷克形态句法分析的开源网络服务与形态字典增强的深度学习

我们提供了一个开源网络服务，该服务用于捷克形态句法分析。该系统将深度学习模型与高精度形态词典的重评分相结合，在推理时能够显示超过两个竞争基准：深度学习模型确保了对于未在词汇表中的词汇的泛化和更好的消歧能力，从而优于现有的形态分析器 MorphoDiTa；同时，深度学习模型通过推理时利用手动精心编辑的形态词典来获益。相较于 MorphoDiTa，我们在词干化方面的误差减少了 50％，在词性标记方面的误差减少了 58％，同时还提供了依赖性分析。该模型是在目前最大的捷克形态句法语料库 PDT-C 1.0 上进行训练的，训练后的模型可以在此 https URL 上获取。我们将该工具提供为一个网络服务部署在此 https URL 上。源代码可以在 GitHub（此 https URL）上找到，配有用于简单使用的 Python 客户端。模型的文档可以在此 https URL 找到。

Jun, 2024