Mar, 2022

使用子词单元提取日本虚构角色的语言言论模式

TL;DR本文提出了一个解决 MeCab 等传统词法分析器不能很好处理日本动画或游戏角色台词的问题的方法,该方法使用了为深度学习提出的子单元切割行文,并提取频繁出现的字符串来获得表征角色台词的表达式。经过性别、年龄以及日本动画中各个角色的分析,发现这些切割出来的子单元是特定于每一特征的语言表达模式,实验表明这种方法在分类上胜于传统方法。