Sep, 2023

StyloMetrix: 一款用于表示文体向量的开源多语言工具

TL;DR该研究提供了一个关于开源多语言工具 StyloMetrix 的概述,它提供了涵盖语法、句法和词汇等各个方面的风格测量文本表示。StyloMetrix 覆盖了四种语言:波兰语作为主要语言,英语、乌克兰语和俄语。每个特征的标准化输出可成为机器学习模型的有益课程,也可以成为任何深度学习算法中嵌入层的有价值补充。我们力求提供对 StyloMetrix 向量应用的简明而全面的概述,并解释开发的语言特征集合。实验证明,在使用简单算法如随机森林分类器、投票分类器、逻辑回归等进行监督内容分类时,取得了令人满意的结果。深度学习评估揭示了 StyloMetrix 向量在增强由 Transformer 体系结构提取的嵌入层中的实用性。StyloMetrix 已经被证明是机器学习和深度学习算法对执行不同分类任务的可靠来源。