回归模式:使用特征序列 Trie 进行高效的日本语形态分析
该研究提出了一种使用 Bi-LSTM CRF 模型开发日语 Hiragana 句子形态分析神经模型的方法,并证明了 fine-tuning 技术的有效性,并探究了训练数据对于文本不同类型的影响。
Jan, 2022
通过将词汇学特征添加到 LSTM 和 BERT 模型中,我们比较了多种语言中命名实体识别、依赖解析和评论过滤任务的基线和改进模型表现,结果显示,根据所添加的特征的质量和任务的不同,这些特征对于 LSTM 的 NER 和 DP 任务表现提升效果较好,而不太适用于 CF 任务;对于 BERT,只有在高质量特征时才会对 DP 表现有所改善,而且相对于强大的多语言 BERT 模型,语言特异性 BERT 变体的改善程度较小。
Nov, 2020
本文提出了一个解决 MeCab 等传统词法分析器不能很好处理日本动画或游戏角色台词的问题的方法,该方法使用了为深度学习提出的子单元切割行文,并提取频繁出现的字符串来获得表征角色台词的表达式。经过性别、年龄以及日本动画中各个角色的分析,发现这些切割出来的子单元是特定于每一特征的语言表达模式,实验表明这种方法在分类上胜于传统方法。
Mar, 2022
在低资源环境中,提出了一种用于模拟复杂形态的框架解决方案,该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器,提高了机器翻译性能,并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术,提高了在低资源环境中的翻译性能,最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能,希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。
Apr, 2024
本文探讨了适用于复杂形态和大标注集语言的神经字符基础形态标注,结合双向 LSTMs 建模跨单词上下文,发现网络架构和预训练词嵌入向量在‘简单’模型配置的情况下对准确度产生重要影响,通过增加深度优化神经网络可显著提高标注器准确度,最终德语和捷克语的最佳形态标注器性能显著优于文献中最好结果。
Jun, 2016
本文介绍了一种新的计算机模型,该模型结合了最先进的自动化序列比对技术和新颖的语音对准分析技术以及声音对应模式检测技术,可用于监督祖先语言的单词形态学恢复,测试结果表明该方法既快速又易于实现和扩展。
Apr, 2022
我们提供了一个开源网络服务,该服务用于捷克形态句法分析。该系统将深度学习模型与高精度形态词典的重评分相结合,在推理时能够显示超过两个竞争基准:深度学习模型确保了对于未在词汇表中的词汇的泛化和更好的消歧能力,从而优于现有的形态分析器 MorphoDiTa;同时,深度学习模型通过推理时利用手动精心编辑的形态词典来获益。相较于 MorphoDiTa,我们在词干化方面的误差减少了 50%,在词性标记方面的误差减少了 58%,同时还提供了依赖性分析。该模型是在目前最大的捷克形态句法语料库 PDT-C 1.0 上进行训练的,训练后的模型可以在此 https URL 上获取。我们将该工具提供为一个网络服务部署在此 https URL 上。源代码可以在 GitHub(此 https URL)上找到,配有用于简单使用的 Python 客户端。模型的文档可以在此 https URL 找到。
Jun, 2024